Atvirojo kodo Python OCR API, kad vaizdo PDF būtų galima ieškoti
Galinga nemokama Python OCR API, skirta automatizuoti OCR procesą ir palengvinti nuskaitytų vaizdų PDF failų konvertavimą į dokumentus, kuriuose galima lengvai ieškoti.
Optinio simbolių atpažinimo (OCR) technologija pakeitė dokumentų tvarkymo ir apdorojimo būdą, leidžiantį efektyviai išgauti vertingą informaciją. Tarp daugybės galimų OCR įrankių OCRmyPDF išsiskiria kaip universali ir galinga Python biblioteka, kurioje patogumas naudoti ir išskirtinis tikslumas. OCRmyPDF yra atvirojo kodo komandinės eilutės įrankis ir Python biblioteka, specialiai sukurta OCR pridėti prie esamų PDF failų. Biblioteka analizuoja kiekvieną PDF failo puslapį, kad nustatytų spalvų erdvę ir skiriamąją gebą (DPI), kurių reikia norint užfiksuoti visą informaciją tame puslapyje neprarandant turinio.
Atvirojo kodo OCRmyPDF biblioteka palaiko daugybę įvesties formatų, įskaitant nuskaitytus vaizdus, esamus PDF failus ir net DjVu failus. Jis veikia remiantis „vaizdo ir teksto“ prielaida ir siekia sukurti aukštos kokybės išvestį išsaugant originalaus dokumento struktūrą ir formatavimą. Bibliotekoje naudojami PDF optimizavimo metodai, siekiant sumažinti failo dydį, išlaikant aukščiausią įmanomą kokybę. Taikant glaudinimą ir sumažintą atranką užtikrinama, kad PDF failai, kuriuose įgalintas OCR, būtų efektyviai saugomi ir greitai įkeliami.
OCRmyPDF naudojamas tvirtas Tesseract OCR variklis, kuris palaiko daugiau nei 100 kalbų. Jo pažangūs algoritmai užtikrina tikslų teksto atpažinimą net iš prastos kokybės ar iškraipytų vaizdų. Biblioteka suteikė palaikymą, leidžiantį lengvai sugeneruoti ieškomą PDF/A failą iš įprasto PDF. Jame taip pat pateikiamos kai kurios vaizdo apdorojimo parinktys, pvz., iškrypimas, kuris pagerina failų išvaizdą ir OCR kokybę. Kai jie naudojami, ant apdoroto vaizdo įterpiamas OCR sluoksnis. Dėl išsamaus funkcijų rinkinio, įskaitant kelių kalbų palaikymą, PDF optimizavimą, teksto sluoksnio valdymą ir automatizuotą apdorojimą, jis yra vertingas įrankis įmonėms, tyrėjams, archyvarams ir visiems, dirbantiems su dideliais nuskaitytų dokumentų kiekiais.
Darbo su OCRmyPDF pradžia
Rekomenduojamas būdas įdiegti OCRmyPDF yra naudoti pip. Norėdami sklandžiai įdiegti, naudokite šią komandą.
Įdiekite OCRmyPDF per pip
pip install ocrmypdf
Taip pat galite įdiegti rankiniu būdu; atsisiųskite naujausius leidimo failus tiesiai iš GitHub saugyklos.
PDF optimizavimas naudojant Python API
Atvirojo kodo OCRmyPDF biblioteka palaiko labai naudingas funkcijas, skirtas valdyti PDF dokumentų dydį ir kokybę Python programose. Bibliotekoje naudojami PDF optimizavimo metodai, siekiant sumažinti failo dydį, išlaikant aukščiausią įmanomą kokybę. Taikant glaudinimą ir sumažintą mėginių ėmimą užtikrinama, kad PDF failai, kuriuose įgalintas OCR, būtų efektyviai saugomi ir greitai įkeliami. OCRmyPDF pateikia keletą optimizavimo parinkčių, kurias galite tinkinti pagal savo poreikius. Kai kurios dažniausiai naudojamos parinktys apima laikinųjų failų pašalinimą, JBIG2 glaudinimo taikymą, OCR pridėjimo praleidimą, be nuostolių glaudinimo išjungimą, kad maksimaliai sumažintumėte failo dydį ir pan.
Kaip optimizuoti PDF failus naudojant Python API?
import subprocess
def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
try:
# OCRmyPDF command with optimization options
command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
# Execute the OCRmyPDF command
subprocess.run(command, check=True)
print("PDF optimization complete!")
except subprocess.CalledProcessError as e:
print(f"OCRmyPDF error: {e}")
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'
optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)
PDF teksto sluoksnio integravimas per Python API
OCRmyPDF, atvirojo kodo biblioteka, yra galingas sprendimas integruoti teksto sluoksnius į PDF failus, pagerinti dokumentų prieinamumą ir paieškos galimybes. Biblioteka prideda teksto sluoksnį, kuriame yra OCR sugeneruotas tekstas, tiesiai į PDF dokumentą, užtikrinant originalaus maketo išsaugojimą. Ši funkcija leidžia ieškoti viso teksto, kopijuoti-įklijuoti ir išgauti tekstą. Dirbant su PDF dokumentais, į failą integruotas teksto sluoksnis yra labai naudingas. Teksto sluoksnyje yra atpažintas OCR sugeneruotas tekstas, todėl PDF galima ieškoti ir lengvai kopijuoti bei išgauti tekstą. Ši integracija išsaugo originalų dokumento išdėstymą, tuo pačiu įgalina tekstus pagrįstas operacijas, pagerina dokumentų naudojimą ir efektyvumą.