Åpen kildekode Python‑API for å bygge smarte OCR‑apper

Gratis Python OCR‑API for å oppdage og gjenkjenne tekst fra bilder, inkludert naturlige scener, skjemaer og skannede dokumenter i Python‑apper.

Hva er MonkeyOCR?

MonkeyOCR er et avansert, ende‑til‑ende optisk tegngjenkjenningssystem (OCR) bygget på dyp læring for programvareutviklere som søker en kraftig og fleksibel løsning. Utviklet av Yuliang Liu, gjør dette biblioteket det mulig å nøyaktig oppdage og gjenkjenne tekst fra ulike kilder, inkludert naturlige scener, skjemaer og skannede dokumenter. Den modulære og skalerbare arkitekturen kombinerer banebrytende dype‑lærings‑teknikker med en robust inferens‑pipeline, noe som gjør den eksepsjonelt egnet for tekstgjenkjenningsoppgaver i den virkelige verden. Praktiske anvendelser spenner fra fakturaskanning og ID‑kortlesing til å hente tekst fra skilt og bygge flerspråklige OCR‑ eller PDF‑til‑data‑pipelines.

Utformet for maksimal fleksibilitet, gjør MonkeyOCR det mulig for programvareingeniører å skape intelligente dokumentbehandlingssystemer uavhengig av kommersielle OCR‑motorer. Den har en rekke avanserte funksjoner, som en fullt modulær OCR‑pipeline, enkel YAML‑konfigurasjon og effektiv batch‑inferens‑støtte. Systemet leverer presise tekstboks‑utdata med koordinater, ved å bruke moderne modeller som DBNet++ for deteksjon og CRNN for gjenkjenning, alt innenfor en konfigurerbar pre‑ og post‑behandlings‑ramme. Denne kombinasjonen av modulært design, støtte for moderne modeller og enkel konfigurasjon gjør MonkeyOCR perfekt for å bygge sofistikerte, virkelige applikasjoner – fra bedriftsdokumentautomatisering til mobilbasert scenetekst‑gjenkjenning.

På et øyeblikk

En oversikt over MonkeyOCR‑funksjonene.

Funksjonsoversikt

Bygg OCR‑apper
Legg til OCR‑funksjonalitet
Gjenkjenne bildetekst
Konverter bilder av tekst
Gjenkjent skrifttype‑tekst
Andre språk
Opprett OCR‑apper
Lagre til nettleser
Ekstrahere tekst
Støtte for flertråding

MonkeyOCR

MonkeyOCR støtter populære bildefilformater listet nedenfor.

Leser

PNG, JPEG, BMP, TIFF, TGA, DICOM

Skriver

PNG, JPEG, BMP, TIFF

MonkeyOCR

Plattformuavhengighet

MonkeyOCR kan fungere med Python 2.7 og nyere.

Python 2.7 og nyere.

MonkeyOCR

Kom i gang med MonkeyOCR

Den anbefalte måten å installere MonkeyOCR på er ved å bruke pip. Vennligst bruk følgende kommando for en smidig installasjon.

Installer MonkeyOCR via pip

 pip install MonkeyOCR

Installer MonkeyOCR via GitHub

 git clone https://github.com/Yuliang-Liu/MonkeyOCR.git

Du kan også installere den manuelt; last ned de nyeste utgivelsesfilene direkte fra GitHub repository.

Uthenting av tekst fra et kvitteringsbilde via Python

Den åpne kildekoden MonkeyOCR er et ende‑til‑ende optisk tegngjenkjenningssystem basert på dype‑lærings‑teknikker. Programvareutviklere som jobber med apper som skanner dokumenter, ID‑kort, kvitteringer eller nummerplater kan koble MonkeyOCR direkte inn i backend‑pipelinen. Med sitt modulære design kan du bruke kun deteksjonsmodellen eller kombinere den med gjenkjenning for å hente strukturert tekst fra bilder. Her er et enkelt eksempel som demonstrerer hvordan du henter tekst fra et kvitteringsbilde ved hjelp av Python‑API.

Hvordan hente tekst fra et kvitteringsbilde via Python‑API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")

for line in results:
    print(line['text'])

Tilpassede OCR‑pipelines for spesifikke brukstilfeller

En av de største styrkene ved det åpne kildekode‑biblioteket MonkeyOCR er den modulære arkitekturen. Programvareutviklere kan blande og matche komponenter som deteksjon, gjenkjenning og klassifiseringsmodeller basert på deres applikasjonskrav. For eksempel kan en dokument‑skanningsapp bruke en lettvektmodell som DBNet for deteksjon og CRNN for gjenkjenning, og dermed optimalisere både hastighet og nøyaktighet.

Tilpassede OCR‑pipelines via Python‑API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(
    det_model_path="weights/dbnet.pth",
    rec_model_path="weights/crnn.pth"
)

results = ocr.predict("form_image.jpg")
for item in results:
    print(item["text"], item["box"])

Integrasjon med forretningsprogramvare

Det åpne kildekode‑biblioteket MonkeyOCR kan også kobles inn i bedriftsdokument‑arbeidsflyter, som automatisering av datainnsamling i ERP‑ eller CRM‑systemer. Programvareutviklere kan kjøre MonkeyOCR i bakgrunnen for å skanne skannede PDF‑er eller bilde‑baserte dokumenter som lastes opp av brukere, og automatisk hente strukturert informasjon. Ved å konfigurere MonkeyOCR med en config.yaml, kan team opprettholde konsistens på tvers av ulike utrullinger.

Bygg automatiserte skjemaleseprogrammer

Ved å kombinere MonkeyOCRs tekst‑deteksjon med posisjonsdata (avgrensningsbokser), kan utviklere designe intelligente skjemaleseprogrammer som lokalisere felter (f.eks. “Navn”, “Dato”, “Beløp”) og hente tilhørende data. Dette er ideelt for skattedokumenter, medisinske skjemaer eller spørreundersøkelser.