Open Source Python API för att bygga smarta OCR-appar

Gratis Python OCR API för att upptäcka och känna igen text från bilder, inklusive naturliga scener, formulär och skannade dokument i Python-appar.

Vad är MonkeyOCR?

MonkeyOCR är ett avancerat, end‑to‑end‑optiskt teckenigenkänningssystem (OCR) byggt på djupinlärning för mjukvaruutvecklare som söker en kraftfull och flexibel lösning. Utvecklat av Yuliang Liu möjliggör detta bibliotek exakt upptäckt och igenkänning av text från olika källor, inklusive naturliga scener, formulär och skannade dokument. Dess modulära och skalbara arkitektur förenar banbrytande djupinlärningsteknik med en robust inferens‑pipeline, vilket gör den exceptionellt lämpad för verkliga textigenkänningsuppgifter. Praktiska tillämpningar sträcker sig från fakturaskanning och ID‑kortsläsning till att extrahera text från skyltar och bygga flerspråkiga OCR‑ eller PDF‑till‑data‑pipelines.

Designad för maximal flexibilitet ger MonkeyOCR mjukvaruingenjörer möjlighet att skapa intelligenta dokumentbehandlingssystem oberoende av kommersiella OCR‑motorer. Den erbjuder en rad avancerade funktioner, såsom en helt modulär OCR‑pipeline, enkel YAML‑konfiguration och effektiv batch‑inferens. Systemet levererar precisa textruteboxar med koordinater, använder moderna modeller som DBNet++ för detektering och CRNN för igenkänning, allt inom ett konfigurerbart för‑ och efterbearbetningsramverk. Denna kombination av modulär design, stöd för samtida modeller och enkel konfiguration gör MonkeyOCR perfekt för att bygga sofistikerade, verkliga applikationer – från företagsdokumentautomation till mobilbaserad scen‑textigenkänning.

Översikt

En översikt av MonkeyOCR-funktioner.

Funktionsöversikt

Bygg OCR-appar
Lägg till OCR-funktioner
Känn igen bildtext
Konvertera bilder med text
Känn igen teckensnittstext
Andra språk
Skapa OCR-appar
Spara till webbläsare
Extrahera text
Stöd för flertrådad körning

MonkeyOCR

MonkeyOCR stödjer populära bildfilformat som listas nedan.

Läsare

PNG, JPEG, BMP, TIFF, TGA, DICOM

Skrivare

PNG, JPEG, BMP, TIFF

MonkeyOCR

Plattformsoberoende

MonkeyOCR kan fungera med Python 2.7 och senare.

Python 2.7 och senare.

MonkeyOCR

Komma igång med MonkeyOCR

Det rekommenderade sättet att installera MonkeyOCR är att använda pip. Använd följande kommando för en smidig installation.

Installera MonkeyOCR via pip

 pip install MonkeyOCR

Installera MonkeyOCR via GitHub

 git clone https://github.com/Yuliang-Liu/MonkeyOCR.git

Du kan också installera det manuellt; ladda ner de senaste release-filerna direkt från GitHub‑repositoriet.

Extrahera text från en kvittobild via Python

Det öppna källkodsprojektet MonkeyOCR är ett end‑to‑end‑optiskt teckenigenkänningssystem baserat på djupinlärning. Mjukvaruutvecklare som arbetar med appar som skannar dokument, ID‑kort, kvitton eller registreringsskyltar kan koppla in MonkeyOCR direkt i sin backend‑pipeline. Med den modulära designen kan du använda endast detekteringsmodellen eller kombinera den med igenkänning för att extrahera strukturerad text från bilder. Här är ett enkelt exempel som visar hur man extraherar text från en kvittobild med Python‑API.

Hur extraherar man text från en kvittobild via Python API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")

for line in results:
    print(line['text'])

Anpassade OCR-pipelines för specifika användningsfall

En av de största styrkorna i det öppna källkods‑MonkeyOCR‑biblioteket är dess modulära arkitektur. Mjukvaruutvecklare kan mixa och matcha komponenter såsom detektering, igenkänning och klassificering baserat på sina applikationskrav. Till exempel kan en dokument‑skanningsapp använda en lättviktig modell som DBNet för detektering och CRNN för igenkänning, vilket optimerar både hastighet och noggrannhet.

Anpassade OCR-pipelines via Python API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(
    det_model_path="weights/dbnet.pth",
    rec_model_path="weights/crnn.pth"
)

results = ocr.predict("form_image.jpg")
for item in results:
    print(item["text"], item["box"])

Integration med affärsprogramvara

Det öppna källkods‑MonkeyOCR‑biblioteket kan också integreras i företagsdokument‑arbetsflöden, såsom automatisering av datainmatning i ERP‑ eller CRM‑system. Mjukvaruutvecklare kan köra MonkeyOCR i bakgrunden för att skanna skannade PDF‑filer eller bildbaserade dokument som laddas upp av användare, och automatiskt extrahera strukturerad information. Genom att konfigurera MonkeyOCR med en config.yaml kan team upprätthålla konsistens över olika distributioner.

Bygg automatiska formulärläsare

Genom att kombinera MonkeyOCR:s textdetektering med positionsdata (begränsningsrutor) kan utvecklare designa intelligenta formulärläsare som lokalisera fält (t.ex. “Namn”, “Datum”, “Belopp”) och extrahera tillhörande data. Detta är idealiskt för skattedokument, medicinska formulär eller enkäter.