Åpen kildekode Python‑API for å bygge smarte OCR‑apper
Gratis Python OCR‑API for å oppdage og gjenkjenne tekst fra bilder, inkludert naturlige scener, skjemaer og skannede dokumenter i Python‑apper.
Hva er MonkeyOCR?
MonkeyOCR er et avansert, ende‑til‑ende optisk tegngjenkjenningssystem (OCR) bygget på dyp læring for programvareutviklere som søker en kraftig og fleksibel løsning. Utviklet av Yuliang Liu, gjør dette biblioteket det mulig å nøyaktig oppdage og gjenkjenne tekst fra ulike kilder, inkludert naturlige scener, skjemaer og skannede dokumenter. Den modulære og skalerbare arkitekturen kombinerer banebrytende dype‑lærings‑teknikker med en robust inferens‑pipeline, noe som gjør den eksepsjonelt egnet for tekstgjenkjenningsoppgaver i den virkelige verden. Praktiske anvendelser spenner fra fakturaskanning og ID‑kortlesing til å hente tekst fra skilt og bygge flerspråklige OCR‑ eller PDF‑til‑data‑pipelines.
Utformet for maksimal fleksibilitet, gjør MonkeyOCR det mulig for programvareingeniører å skape intelligente dokumentbehandlingssystemer uavhengig av kommersielle OCR‑motorer. Den har en rekke avanserte funksjoner, som en fullt modulær OCR‑pipeline, enkel YAML‑konfigurasjon og effektiv batch‑inferens‑støtte. Systemet leverer presise tekstboks‑utdata med koordinater, ved å bruke moderne modeller som DBNet++ for deteksjon og CRNN for gjenkjenning, alt innenfor en konfigurerbar pre‑ og post‑behandlings‑ramme. Denne kombinasjonen av modulært design, støtte for moderne modeller og enkel konfigurasjon gjør MonkeyOCR perfekt for å bygge sofistikerte, virkelige applikasjoner – fra bedriftsdokumentautomatisering til mobilbasert scenetekst‑gjenkjenning.
Kom i gang med MonkeyOCR
Den anbefalte måten å installere MonkeyOCR på er ved å bruke pip. Vennligst bruk følgende kommando for en smidig installasjon.
Installer MonkeyOCR via pip
pip install MonkeyOCR Installer MonkeyOCR via GitHub
git clone https://github.com/Yuliang-Liu/MonkeyOCR.git Du kan også installere den manuelt; last ned de nyeste utgivelsesfilene direkte fra GitHub repository.
Uthenting av tekst fra et kvitteringsbilde via Python
Den åpne kildekoden MonkeyOCR er et ende‑til‑ende optisk tegngjenkjenningssystem basert på dype‑lærings‑teknikker. Programvareutviklere som jobber med apper som skanner dokumenter, ID‑kort, kvitteringer eller nummerplater kan koble MonkeyOCR direkte inn i backend‑pipelinen. Med sitt modulære design kan du bruke kun deteksjonsmodellen eller kombinere den med gjenkjenning for å hente strukturert tekst fra bilder. Her er et enkelt eksempel som demonstrerer hvordan du henter tekst fra et kvitteringsbilde ved hjelp av Python‑API.
Hvordan hente tekst fra et kvitteringsbilde via Python‑API?
from monkey_ocr.ocr_predict import OCRPredictor
ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")
for line in results:
print(line['text'])
Tilpassede OCR‑pipelines for spesifikke brukstilfeller
En av de største styrkene ved det åpne kildekode‑biblioteket MonkeyOCR er den modulære arkitekturen. Programvareutviklere kan blande og matche komponenter som deteksjon, gjenkjenning og klassifiseringsmodeller basert på deres applikasjonskrav. For eksempel kan en dokument‑skanningsapp bruke en lettvektmodell som DBNet for deteksjon og CRNN for gjenkjenning, og dermed optimalisere både hastighet og nøyaktighet.
Tilpassede OCR‑pipelines via Python‑API?
from monkey_ocr.ocr_predict import OCRPredictor
ocr = OCRPredictor(
det_model_path="weights/dbnet.pth",
rec_model_path="weights/crnn.pth"
)
results = ocr.predict("form_image.jpg")
for item in results:
print(item["text"], item["box"])
Integrasjon med forretningsprogramvare
Det åpne kildekode‑biblioteket MonkeyOCR kan også kobles inn i bedriftsdokument‑arbeidsflyter, som automatisering av datainnsamling i ERP‑ eller CRM‑systemer. Programvareutviklere kan kjøre MonkeyOCR i bakgrunnen for å skanne skannede PDF‑er eller bilde‑baserte dokumenter som lastes opp av brukere, og automatisk hente strukturert informasjon. Ved å konfigurere MonkeyOCR med en config.yaml, kan team opprettholde konsistens på tvers av ulike utrullinger.
Bygg automatiserte skjemaleseprogrammer
Ved å kombinere MonkeyOCRs tekst‑deteksjon med posisjonsdata (avgrensningsbokser), kan utviklere designe intelligente skjemaleseprogrammer som lokalisere felter (f.eks. “Navn”, “Dato”, “Beløp”) og hente tilhørende data. Dette er ideelt for skattedokumenter, medisinske skjemaer eller spørreundersøkelser.