Atvērtā pirmkoda Python OCR API, lai padarītu attēlu PDF failus meklējamus
Jaudīga bezmaksas Python OCR API, kas automatizē OCR procesu un atvieglo skenētu attēlu PDF failu pārvēršanu pilnībā meklējamos dokumentos.
Optiskās rakstzīmju atpazīšanas (OCR) tehnoloģija ir mainījusi veidu, kā mēs apstrādājam un apstrādājam dokumentus, ļaujot mums efektīvi iegūt vērtīgu informāciju. Starp daudzajiem pieejamajiem OCR rīkiem OCRmyPDF izceļas kā daudzpusīga un jaudīga Python bibliotēka, kas apvieno lietošanas ērtumu ar izcilu precizitāti. OCRmyPDF ir atvērtā pirmkoda komandrindas rīks un Python bibliotēka, kas īpaši izstrādāta OCR pievienošanai esošajiem PDF failiem. Bibliotēka analizē katru PDF faila lapu, lai noteiktu krāsu telpu un izšķirtspēju (DPI), kas nepieciešama, lai tvertu visu informāciju šajā lapā, nezaudējot saturu.
Atvērtā pirmkoda OCRmyPDF bibliotēka atbalsta plašu ievades formātu klāstu, tostarp skenētus attēlus, esošos PDF failus un pat DjVu failus. Tas darbojas, pamatojoties uz "attēlu un tekstu", un tā mērķis ir radīt augstas kvalitātes izvadi, saglabājot oriģinālā dokumenta struktūru un formatējumu. Bibliotēka izmanto PDF optimizācijas paņēmienus, lai samazinātu faila lielumu, vienlaikus saglabājot augstāko iespējamo kvalitāti. Izmantojot saspiešanu un samazinātu iztveršanu, tiek nodrošināts, ka iegūtie ar OCR iespējotie PDF faili ir gan efektīvi glabājami, gan ātri ielādējami.
OCRmyPDF izmanto robusto Tesseract OCR dzinēju, kas atbalsta vairāk nekā 100 valodas. Tā uzlabotie algoritmi nodrošina precīzu teksta atpazīšanu pat no zemas kvalitātes vai izkropļotiem attēliem. Bibliotēka ir nodrošinājusi atbalstu meklējama PDF/A faila vienkāršai ģenerēšanai no parasta PDF faila. Tas nodrošina arī dažas attēlu apstrādes opcijas, piemēram, novirzīšanu, kas uzlabo failu izskatu un OCR kvalitāti. Ja tie tiek izmantoti, OCR slānis tiek uzpotēts apstrādātajam attēlam. Tā visaptverošais funkciju komplekts, tostarp atbalsts vairākām valodām, PDF optimizācija, teksta slāņa kontrole un automatizēta apstrāde, padara to par vērtīgu rīku uzņēmumiem, pētniekiem, arhivāriem un ikvienam, kas nodarbojas ar lielu skenētu dokumentu apjomu.
Darba sākšana ar OCRmyPDF
Ieteicamais veids, kā instalēt OCRmyPDF, ir izmantot pip. Lūdzu, izmantojiet šo komandu vienmērīgai instalēšanai.
Instalējiet OCRmyPDF, izmantojot pip
pip install ocrmypdf
Varat to instalēt arī manuāli; lejupielādējiet jaunākos laidiena failus tieši no GitHub krātuves.
PDF optimizācija, izmantojot Python API
Atvērtā pirmkoda OCRmyPDF bibliotēka ir nodrošinājusi atbalstu ļoti noderīgām funkcijām, lai pārvaldītu PDF dokumentu lielumu un kvalitāti Python lietojumprogrammās. Bibliotēka izmanto PDF optimizācijas paņēmienus, lai samazinātu faila lielumu, vienlaikus saglabājot augstāko iespējamo kvalitāti. Izmantojot saspiešanu un samazinātu iztveršanu, tiek nodrošināts, ka iegūtie ar OCR iespējotie PDF faili ir gan efektīvi glabājami, gan ātri ielādējami. OCRmyPDF nodrošina vairākas optimizācijas iespējas, kuras varat pielāgot atbilstoši savām prasībām. Dažas biežāk izmantotās opcijas ietver pagaidu failu noņemšanu, JBIG2 saspiešanas lietošanu, OCR pievienošanas izlaišanu, bezzudumu saspiešanas atspējošanu, lai maksimāli samazinātu faila lielumu un tā tālāk.
Kā optimizēt PDF failus, izmantojot Python API?
import subprocess
def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
try:
# OCRmyPDF command with optimization options
command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
# Execute the OCRmyPDF command
subprocess.run(command, check=True)
print("PDF optimization complete!")
except subprocess.CalledProcessError as e:
print(f"OCRmyPDF error: {e}")
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'
optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)
PDF teksta slāņa integrācija, izmantojot Python API
OCRmyPDF, atvērtā pirmkoda bibliotēka, nodrošina jaudīgu risinājumu teksta slāņu integrēšanai PDF failos, uzlabojot dokumentu pieejamību un meklēšanas iespējas. Bibliotēka tieši PDF dokumentam pievieno teksta slāni, kurā ir OCR ģenerēts teksts, nodrošinot sākotnējā izkārtojuma saglabāšanu. Šī funkcija nodrošina pilna teksta meklēšanu, kopēšanu-ielīmēšanu un teksta izvilkšanu. Strādājot ar PDF dokumentiem, teksta slāņa integrēšana failā ir ļoti izdevīga. Teksta slānis satur atpazītu OCR ģenerētu tekstu, padarot PDF meklējamu un ļaujot viegli kopēt un izvilkt tekstu. Šī integrācija saglabā oriģinālo dokumenta izkārtojumu, vienlaikus nodrošinot uz tekstu balstītas darbības, uzlabojot dokumentu lietojamību un efektivitāti.