Foinse Oscailte Python OCR API chun Íomhá PDF a Inchuardaithe
API OCR Python Cumhachtach In Aisce chun Próiseas OCR a Uathoibriú agus Éascaíonn sé Tiontú PDF Íomhánna Scanta go Doiciméid atá inchuardaithe go hiomlán gan stró.
Tá an teicneolaíocht um Aithint Optúil Carachtair (OCR) tar éis an bealach a láimhseáil agus a phróiseáil doiciméid a athrú ó bhonn, rud a chuir ar ár gcumas faisnéis luachmhar a bhaint go héifeachtach. I measc na n-uirlisí OCR iomadúla atá ar fáil, seasann OCRmyPDF amach mar leabharlann Python ildánach agus cumhachtach a chomhcheanglaíonn éascaíocht úsáide le cruinneas eisceachtúil. Is uirlis foinse oscailte ordú-líne é OCRmyPDF agus leabharlann Python atá deartha go sonrach chun OCR a chur le comhaid PDF atá ann cheana féin. Déanann an leabharlann anailís ar gach leathanach de chomhad PDF chun an spás datha agus an taifeach (DPI) a theastaíonn chun an fhaisnéis go léir ar an leathanach sin a ghabháil gan ábhar a chailliúint a chinneadh.
Tacaíonn leabharlann foinse oscailte OCRmyPDF le raon leathan formáidí ionchuir, lena n-áirítear íomhánna scanta, PDFanna atá ann cheana féin, agus fiú comhaid DjVu. Feidhmíonn sé ar bhonn "íomhá móide téacs" agus tá sé mar aidhm aige aschur ardchaighdeáin a tháirgeadh trí struchtúr agus formáidiú an bhundoiciméid a chaomhnú. Úsáideann an leabharlann teicnící optamaithe PDF chun méid comhaid a laghdú agus an caighdeán is airde is féidir a choinneáil. Trí chomhbhrú agus íosshampláil a chur i bhfeidhm, cinntíonn sé go mbíonn na comhaid PDF atá cumasaithe le OCR dá bharr sin éifeachtach le stóráil agus go tapa le luchtú.
Úsáideann OCRmyPDF inneall láidir Tesseract OCR, a thacaíonn le breis agus 100 teanga. Cinntíonn a halgartaim ardleibhéil aitheantas cruinn do théacs, fiú ó íomhánna ar chaighdeán íseal nó as íomhánna a shaobhadh. Chuir an leabharlann tacaíocht ar fáil chun comhad PDF/A inchuardaithe a ghiniúint ó PDF rialta gan stró. Soláthraíonn sé freisin roinnt roghanna próiseála íomhá, cosúil le deasc, a fheabhsaíonn cuma comhad agus cáilíocht OCR. Nuair a úsáidtear iad seo, grafaítear an ciseal OCR ar an íomhá próiseáilte ina ionad sin. Is uirlis luachmhar í do ghnólachtaí, do thaighdeoirí, do chartlanna agus d'aon duine a bhíonn ag déileáil le líon mór doiciméad scanta mar gheall ar a sraith chuimsitheach gnéithe, lena n-áirítear tacaíocht d'iltheangacha, optamú PDF, rialú ciseal téacs, agus próiseáil uathoibrithe.
Tosú ar OCRmyPDF
Is é an bealach molta chun OCRmyPDF a shuiteáil ná pip a úsáid. Bain úsáid as an ordú seo a leanas le haghaidh suiteáil rianúil.
Suiteáil OCRmyPDF trí pip
pip install ocrmypdf
Is féidir leat é a shuiteáil de láimh freisin; íoslódáil na comhaid eisithe is déanaí go díreach ó GitHub stór.
uasmhéadú PDF ag úsáid Python API
Chuir leabharlann foinse oscailte OCRmyPDF tacaíocht ar fáil do ghnéithe an-úsáideacha chun méid agus cáilíocht doiciméad PDF a bhainistiú laistigh d’fheidhmchláir Python. Úsáideann an leabharlann teicnící optamaithe PDF chun méid comhaid a laghdú agus an caighdeán is airde is féidir a choinneáil. Trí chomhbhrú agus íosshampláil a chur i bhfeidhm, cinntíonn sé go mbíonn na comhaid PDF atá cumasaithe le OCR dá bharr sin éifeachtach le stóráil agus go tapa le luchtú. Soláthraíonn OCRmyPDF roinnt roghanna barrfheabhsaithe ar féidir leat a shaincheapadh bunaithe ar do chuid riachtanas. I measc na roghanna a úsáidtear go coitianta tá comhaid shealadacha a bhaint, comhbhrú JBIG2 a chur i bhfeidhm, gan bacadh le cur leis an OCR, comhbhrú gan chailliúint a dhíchumasú chun méid comhaid a laghdú agus mar sin de.
Conas Comhaid PDF a bharrfheabhsú ag baint úsáide as Python API?
import subprocess
def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
try:
# OCRmyPDF command with optimization options
command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
# Execute the OCRmyPDF command
subprocess.run(command, check=True)
print("PDF optimization complete!")
except subprocess.CalledProcessError as e:
print(f"OCRmyPDF error: {e}")
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'
optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)
Comhtháthú Sraithe Téacs PDF trí Python API
Soláthraíonn OCRmyPDF, leabharlann foinse oscailte, réiteach cumhachtach chun sraitheanna téacs a chomhtháthú i gcomhaid PDF, chun inrochtaineacht doiciméad agus cumas cuardaigh a fheabhsú. Cuireann an leabharlann sraith téacs ina bhfuil téacs a ghintear le OCR go díreach isteach sa doiciméad PDF, ag cinntiú go gcaomhnaítear an leagan amach bunaidh. Cumasaíonn an ghné seo cuardach téacs iomlán, cóip-ghreamú, agus eastóscadh téacs. Agus tú ag obair le doiciméid PDF, tá sé an-bhuntáiste go mbeadh sraith téacs comhtháite laistigh den chomhad. Tá an téacs aitheanta a ghintear le OCR sa tsraith téacs, rud a fhágann gur féidir an PDF a chuardach agus a cheadaíonn cóipeáil agus asbhaint éasca téacs. Leis an gcomhtháthú seo caomhnaítear leagan amach an bhundoiciméid agus é ag cumasú oibríochtaí bunaithe ar théacs, ag cur le húsáideacht agus éifeachtúlacht doiciméad.