Open source Python‑API til at bygge smarte OCR‑apps

Gratis Python OCR‑API til at opdage og genkende tekst fra billeder, herunder naturlige scener, formularer og scannede dokumenter i Python‑apps.

Hvad er MonkeyOCR?

MonkeyOCR er et avanceret, end‑to‑end optisk tegngenkendelsessystem (OCR) bygget på dyb læring for software‑udviklere, der søger en kraftfuld og fleksibel løsning. Udviklet af Yuliang Liu gør dette bibliotek præcis detektion og genkendelse af tekst fra forskellige kilder, herunder naturlige scener, formularer og scannede dokumenter. Dets modulære og skalerbare arkitektur kombinerer banebrydende dyb‑lærings‑teknikker med en robust inferens‑pipeline, hvilket gør det særdeles egnet til reelle tekst‑genkendelses‑opgaver. Praktiske anvendelser spænder fra fakturaskanning og ID‑kort‑læsning til udtræk af tekst fra skiltning og opbygning af flersprogede OCR‑ eller PDF‑til‑data‑pipelines.

Designet for maksimal fleksibilitet giver MonkeyOCR software‑ingeniører mulighed for at skabe intelligente dokumentbehandlingssystemer uafhængigt af kommercielle OCR‑motorer. Det har en række avancerede funktioner, såsom en fuldt modulær OCR‑pipeline, simpel YAML‑filkonfiguration og effektiv batch‑inferens‑understøttelse. Systemet leverer præcise tekst‑boks‑output med koordinater, ved brug af moderne modeller som DBNet++ til detektion og CRNN til genkendelse, alt inden for en konfigurerbar for‑ og efter‑behandlingsramme. Denne kombination af modulært design, understøttelse af nutidige modeller og nem konfiguration gør MonkeyOCR ideelt til at bygge sofistikerede, virkelige applikationer – fra virksomhedsdokument‑automatisering til mobil‑baseret scenetekst‑genkendelse.

På et overblik

En oversigt over MonkeyOCR‑funktioner.

Features Overview

Byg OCR‑apps
Tilføj OCR‑funktioner
Genkend billedtekst
Konverter billeder af tekst
Genkend skrifttype‑tekst
Andre sprog
Opret OCR‑apps
Gem til browser
Udtræk tekst
Understøttelse af multitrådning

MonkeyOCR

MonkeyOCR understøtter populære billedfilformater listet nedenfor.

Læser

PNG, JPEG, BMP, TIFF, TGA, DICOM

Skriver

PNG, JPEG, BMP, TIFF

MonkeyOCR

Platformuafhængighed

MonkeyOCR kan fungere med Python 2.7 og nyere.

Python 2.7 og nyere.

MonkeyOCR

Kom i gang med MonkeyOCR

Den anbefalede måde at installere MonkeyOCR på er ved at bruge pip. Brug venligst følgende kommando for en problemfri installation.

Installér MonkeyOCR via pip

 pip install MonkeyOCR

Installér MonkeyOCR via GitHub

 git clone https://github.com/Yuliang-Liu/MonkeyOCR.git

Du kan også installere det manuelt; download de seneste udgivelses‑filer direkte fra GitHub repository.

Udtrækning af tekst fra et kvitteringsbillede via Python

Det open source MonkeyOCR er et end‑to‑end optisk tegngenkendelsessystem baseret på dyb‑lærings‑teknikker. Software‑udviklere, der arbejder på apps, som scanner dokumenter, ID‑kort, kvitteringer eller nummerplader, kan integrere MonkeyOCR direkte i deres backend‑pipeline. Med det modulære design kan du kun bruge detektions‑modellen eller kombinere den med genkendelse for at udtrække struktureret tekst fra billeder. Her er et enkelt eksempel, der demonstrerer, hvordan man udtrækker tekst fra et kvitteringsbillede ved hjælp af Python‑API.

Sådan udtrækkes tekst fra et kvitteringsbillede via Python‑API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")

for line in results:
    print(line['text'])

Tilpassede OCR‑pipelines til specifikke anvendelsestilfælde

En af de største styrker ved det open source MonkeyOCR‑bibliotek er dets modulære arkitektur. Software‑udviklere kan blande og matche komponenter såsom detektions‑, genkendelses‑ og klassifikations‑modeller baseret på deres applikationskrav. For eksempel kan en dokument‑scannings‑app bruge en letvægtsmodel som DBNet til detektion og CRNN til genkendelse, hvilket optimerer både hastighed og nøjagtighed.

Tilpassede OCR‑pipelines via Python‑API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(
    det_model_path="weights/dbnet.pth",
    rec_model_path="weights/crnn.pth"
)

results = ocr.predict("form_image.jpg")
for item in results:
    print(item["text"], item["box"])

Integration med forretningssoftware

Det open source MonkeyOCR‑bibliotek kan også integreres i virksomheders dokument‑arbejdsprocesser, såsom automatisering af dataindtastning i ERP‑ eller CRM‑systemer. Software‑udviklere kan køre MonkeyOCR i baggrunden for at scanne scannede PDF‑filer eller billed‑baserede dokumenter, som brugere uploader, og automatisk udtrække struktureret information. Ved at konfigurere MonkeyOCR med en config.yaml kan teams opretholde konsistens på tværs af forskellige implementeringer.

Byg automatiserede formular‑læserere

Ved at kombinere MonkeyOCR’s tekst‑detektion med positionsdata (bounding boxes) kan udviklere designe intelligente formular‑læserere, der lokerer felter (f.eks. “Navn”, “Dato”, “Beløb”) og udtrækker tilknyttede data. Dette er ideelt til skattedokumenter, medicinske formularer eller spørgeskemaer.