Open Source Python OCR API te kerel pes e image PDF-ura te aven rodime

Jekh zuralo bipokinipesko Python OCR API te automatizil o OCR proceso thaj te kerel konverzia e skanime image PDF-enge ande pherdo rode dokumentura bi lokho.

I optikani prinʒaripen e karakterenqi (OCR) kerdas jekh revolucia anθ-o drom sar amen keras buti thaj procesisaras e dokumentură, so śaj te kerel amen te xramosaras laćhe informàcie efikasno. Mashkar but OCR-esqe alava save si laćhe, OCRmyPDF sikavel pes sar jekh butivar laćhi thaj zurali Python-esqi biblioteka savi kombinil o lokho labăripen thaj jekh eksepcionalo ćaćipen. OCRmyPDF si jekh putardo-surso komand-linijako instrumento thaj Python biblioteka kerdini specijalno te thovel OCR ko egzistuime PDF file. I biblioteka analiziril svako rig e PDF-esko te dikhel o koloro thaj o rezolucia (DPI) so trubul te astarel sa e informacie pe kodi rig bi te xasarel o sasto.

I putardi OCRmyPDF biblioteka suportil bute input formaturenqi, maśkar lende skanime imaźură, egzistuime PDF-ură, thaj vi DjVu-esqe lilă. Vov kerel buti pe premisa "image plus text" thaj kamel te kerel lačho kvaliteto e rezultatosko prezervindoj e originalno dokumentosko struktura thaj formatiribe. I biblioteka kerel buti e PDF optimizaciake teknikenca te ciknjarel o barope e lilsko thaj te arakhel o maj baro kvaliteto. Kana kerel pes kompresia thaj down-sampling, vov siguril pes kaj e rezultatura OCR-enabled PDF file si vi efikasno te garavel pes thaj vi sigo te phandel pes.

OCRmyPDF utilizil o zuralo Tesseract OCR motori, savo suportil maj but de 100 ćhiba. Leske avansime algoritmura sigurin o ćaćutno pinʒaripen e tekstosqo, vi katar e tikne kvalitetosqe vaj distortirime imaźură. I biblioteka del suporto te kerel pes jekh rodipnasko PDF/A lil katar jekh regularno PDF bi lokho. Vov vi del nesave opcie vash o procesiribe e imagengo, sar deskew, savo lačharel o dikhipe e filengo thaj o kvaliteto e OCR-esko. Kana kadala si hasnime, o OCR strato si phanglo pe procesirime image. Lesko pherdo funkcionalno set, inkluzivno suporto vash but shiba, PDF optimizacia, kontrola e tekstosko, thaj automatizirimo procesiripe, kerel les te ovel vasno instrumento vash biznisora, roditora, arxivistura, thaj savore save keren buti bare volumenca skanime dokumenturengo.

Ano jekh dikhipe

Jekh dikhipen e OCRmyPDF funkcienqo.

O dikhipen e funkcienqo

Keren OCR
Thajvel OCR śajutnimata
Pinźaren o tèksto le patretosqo
Convet image of text
Pinźardo tèksto e fontosqo
Roden PDF
Aver ćhiba
Keren OCR aplikacie
Garav ando browser
Xramosar o tèksto
But-threading Suporto

OCRmyPDF

OCRmyPDF suportil e popularno formatura e lilaqe e imaʒenqe save si xramosarde telal.

Lekhavno

PNG, JPEG, BMP, TIFF, TGA, DICOM

Xramosaripen

PNG, JPEG, BMP, TIFF

OCRmyPDF

Platformoski Independenca

OCRmyPDF śaj te kerel buti e Python 2.7 thaj maj upre.

Python 2.7 & opral.

OCRmyPDF

Te astarel pes o OCRmyPDF

O rekomenduime drom te instalis o OCRmyPDF si te hasnis o pip. Mangav tumen te hasnin o śerutno komando vaś jekh śukar instalàcia.

Instalisaren OCRmyPDF prekal o pip

 pip install ocrmypdf

Tu śaj vi te instalisares les manualo; tele lel e maj palune lila direktno katar o GitHub repozitoriumo.

PDF optimizàcia labǎrindoj o Python API

I putardi OCRmyPDF biblioteka del suporto but laćhe funkciěnqe te śaj te źutil pes o barodipen thaj o kvaliteto e PDF dokumenturenqo and-e Python aplikacie. I biblioteka kerel buti e PDF optimizaciake teknikenca te ciknjarel o barope e lilsko thaj te arakhel o maj baro kvaliteto. Kana kerel pes kompresia thaj down-sampling, vov siguril pes kaj e rezultatura OCR-enabled PDF fileura si vi efikasne te garaven pes thaj vi sigo te pherven pes. OCRmyPDF del but opcie vaś optimizàcia save śaj te keren personalizirime bazirime pe tumare trubujimata. Nesave opcie save si butivar hasnime si te lel pes o temporarno lil, te kerel pes JBIG2 kompresia, te na thovel pes o OCR, te phandel pes i kompresia bi xasaripnaski te kerel pes maj baro redukcia e lilenqi thaj aver.

Sar te optimizirinel pes e PDF-esqe lilǎ anθ-o Python API?

import subprocess

def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
    try:
        # OCRmyPDF command with optimization options
        command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
        
        # Execute the OCRmyPDF command
        subprocess.run(command, check=True)
        
        print("PDF optimization complete!")
    except subprocess.CalledProcessError as e:
        print(f"OCRmyPDF error: {e}")
        
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'

optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)

PDF Text Layer Integration prekal Python API

OCRmyPDF, jekh putardi biblioteka, del jekh zurali solucia vaś te integrisarel pes e tekstosqe riga anθ-e PDF-esqe lila, te vazdel pes i aksesibilitèta e dokumenturenqi thaj i śajmata te rodel pes. I biblioteka thovel jekh tekstosko strato savo si les OCR-generime teksto direktno pe PDF dokumento, sigurindoj o arakhipnasqo lil e originalone layout-esqo. Akaja funkcia del śajsaripen te rodel pes o sasto tèksto, te kopisarel pes thaj te lel pes o tèksto. Kana keres buti e PDF dokumenturenca, te avel tut jekh tekstosko strato integrime andar o lil si but lačho. O tekstosko strato si les o pindžardo OCR-generime teksto, so kerel o PDF te rodel pes thaj del śajsaripen te kerel pes lokho kopiaripe thaj avri ćhivipen e tekstosqo. Kadi integracia arakhel o originalno dokumentosko aranźmanto, śaj te kerel pes operacie bazirime pe tèksto, vazdel pes i śajmata thaj e efikasnost e dokumentosqi.