Open Source Python OCR API te kerel pes e image PDF-ura te aven rodime
Jekh zuralo bipokinipesko Python OCR API te automatizil o OCR proceso thaj te kerel konverzia e skanime image PDF-enge ande pherdo rode dokumentura bi lokho.
I optikani prinʒaripen e karakterenqi (OCR) kerdas jekh revolucia anθ-o drom sar amen keras buti thaj procesisaras e dokumentură, so śaj te kerel amen te xramosaras laćhe informàcie efikasno. Mashkar but OCR-esqe alava save si laćhe, OCRmyPDF sikavel pes sar jekh butivar laćhi thaj zurali Python-esqi biblioteka savi kombinil o lokho labăripen thaj jekh eksepcionalo ćaćipen. OCRmyPDF si jekh putardo-surso komand-linijako instrumento thaj Python biblioteka kerdini specijalno te thovel OCR ko egzistuime PDF file. I biblioteka analiziril svako rig e PDF-esko te dikhel o koloro thaj o rezolucia (DPI) so trubul te astarel sa e informacie pe kodi rig bi te xasarel o sasto.
I putardi OCRmyPDF biblioteka suportil bute input formaturenqi, maśkar lende skanime imaźură, egzistuime PDF-ură, thaj vi DjVu-esqe lilă. Vov kerel buti pe premisa "image plus text" thaj kamel te kerel lačho kvaliteto e rezultatosko prezervindoj e originalno dokumentosko struktura thaj formatiribe. I biblioteka kerel buti e PDF optimizaciake teknikenca te ciknjarel o barope e lilsko thaj te arakhel o maj baro kvaliteto. Kana kerel pes kompresia thaj down-sampling, vov siguril pes kaj e rezultatura OCR-enabled PDF file si vi efikasno te garavel pes thaj vi sigo te phandel pes.
OCRmyPDF utilizil o zuralo Tesseract OCR motori, savo suportil maj but de 100 ćhiba. Leske avansime algoritmura sigurin o ćaćutno pinʒaripen e tekstosqo, vi katar e tikne kvalitetosqe vaj distortirime imaźură. I biblioteka del suporto te kerel pes jekh rodipnasko PDF/A lil katar jekh regularno PDF bi lokho. Vov vi del nesave opcie vash o procesiribe e imagengo, sar deskew, savo lačharel o dikhipe e filengo thaj o kvaliteto e OCR-esko. Kana kadala si hasnime, o OCR strato si phanglo pe procesirime image. Lesko pherdo funkcionalno set, inkluzivno suporto vash but shiba, PDF optimizacia, kontrola e tekstosko, thaj automatizirimo procesiripe, kerel les te ovel vasno instrumento vash biznisora, roditora, arxivistura, thaj savore save keren buti bare volumenca skanime dokumenturengo.
Te astarel pes o OCRmyPDF
O rekomenduime drom te instalis o OCRmyPDF si te hasnis o pip. Mangav tumen te hasnin o śerutno komando vaś jekh śukar instalàcia.
Instalisaren OCRmyPDF prekal o pip
pip install ocrmypdf
Tu śaj vi te instalisares les manualo; tele lel e maj palune lila direktno katar o GitHub repozitoriumo.
PDF optimizàcia labǎrindoj o Python API
I putardi OCRmyPDF biblioteka del suporto but laćhe funkciěnqe te śaj te źutil pes o barodipen thaj o kvaliteto e PDF dokumenturenqo and-e Python aplikacie. I biblioteka kerel buti e PDF optimizaciake teknikenca te ciknjarel o barope e lilsko thaj te arakhel o maj baro kvaliteto. Kana kerel pes kompresia thaj down-sampling, vov siguril pes kaj e rezultatura OCR-enabled PDF fileura si vi efikasne te garaven pes thaj vi sigo te pherven pes. OCRmyPDF del but opcie vaś optimizàcia save śaj te keren personalizirime bazirime pe tumare trubujimata. Nesave opcie save si butivar hasnime si te lel pes o temporarno lil, te kerel pes JBIG2 kompresia, te na thovel pes o OCR, te phandel pes i kompresia bi xasaripnaski te kerel pes maj baro redukcia e lilenqi thaj aver.
import subprocess
def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
try:
# OCRmyPDF command with optimization options
command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
# Execute the OCRmyPDF command
subprocess.run(command, check=True)
print("PDF optimization complete!")
except subprocess.CalledProcessError as e:
print(f"OCRmyPDF error: {e}")
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'
optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)
PDF Text Layer Integration prekal Python API
OCRmyPDF, jekh putardi biblioteka, del jekh zurali solucia vaś te integrisarel pes e tekstosqe riga anθ-e PDF-esqe lila, te vazdel pes i aksesibilitèta e dokumenturenqi thaj i śajmata te rodel pes. I biblioteka thovel jekh tekstosko strato savo si les OCR-generime teksto direktno pe PDF dokumento, sigurindoj o arakhipnasqo lil e originalone layout-esqo. Akaja funkcia del śajsaripen te rodel pes o sasto tèksto, te kopisarel pes thaj te lel pes o tèksto. Kana keres buti e PDF dokumenturenca, te avel tut jekh tekstosko strato integrime andar o lil si but lačho. O tekstosko strato si les o pindžardo OCR-generime teksto, so kerel o PDF te rodel pes thaj del śajsaripen te kerel pes lokho kopiaripe thaj avri ćhivipen e tekstosqo. Kadi integracia arakhel o originalno dokumentosko aranźmanto, śaj te kerel pes operacie bazirime pe tèksto, vazdel pes i śajmata thaj e efikasnost e dokumentosqi.