Foinse Oscailte Python OCR API chun Íomhá PDF a Inchuardaithe

API OCR Python Cumhachtach In Aisce chun Próiseas OCR a Uathoibriú agus Éascaíonn sé Tiontú PDF Íomhánna Scanta go Doiciméid atá inchuardaithe go hiomlán gan stró.

Tá an teicneolaíocht um Aithint Optúil Carachtair (OCR) tar éis an bealach a láimhseáil agus a phróiseáil doiciméid a athrú ó bhonn, rud a chuir ar ár gcumas faisnéis luachmhar a bhaint go héifeachtach. I measc na n-uirlisí OCR iomadúla atá ar fáil, seasann OCRmyPDF amach mar leabharlann Python ildánach agus cumhachtach a chomhcheanglaíonn éascaíocht úsáide le cruinneas eisceachtúil. Is uirlis foinse oscailte ordú-líne é OCRmyPDF agus leabharlann Python atá deartha go sonrach chun OCR a chur le comhaid PDF atá ann cheana féin. Déanann an leabharlann anailís ar gach leathanach de chomhad PDF chun an spás datha agus an taifeach (DPI) a theastaíonn chun an fhaisnéis go léir ar an leathanach sin a ghabháil gan ábhar a chailliúint a chinneadh.

Tacaíonn leabharlann foinse oscailte OCRmyPDF le raon leathan formáidí ionchuir, lena n-áirítear íomhánna scanta, PDFanna atá ann cheana féin, agus fiú comhaid DjVu. Feidhmíonn sé ar bhonn "íomhá móide téacs" agus tá sé mar aidhm aige aschur ardchaighdeáin a tháirgeadh trí struchtúr agus formáidiú an bhundoiciméid a chaomhnú. Úsáideann an leabharlann teicnící optamaithe PDF chun méid comhaid a laghdú agus an caighdeán is airde is féidir a choinneáil. Trí chomhbhrú agus íosshampláil a chur i bhfeidhm, cinntíonn sé go mbíonn na comhaid PDF atá cumasaithe le OCR dá bharr sin éifeachtach le stóráil agus go tapa le luchtú.

Úsáideann OCRmyPDF inneall láidir Tesseract OCR, a thacaíonn le breis agus 100 teanga. Cinntíonn a halgartaim ardleibhéil aitheantas cruinn do théacs, fiú ó íomhánna ar chaighdeán íseal nó as íomhánna a shaobhadh. Chuir an leabharlann tacaíocht ar fáil chun comhad PDF/A inchuardaithe a ghiniúint ó PDF rialta gan stró. Soláthraíonn sé freisin roinnt roghanna próiseála íomhá, cosúil le deasc, a fheabhsaíonn cuma comhad agus cáilíocht OCR. Nuair a úsáidtear iad seo, grafaítear an ciseal OCR ar an íomhá próiseáilte ina ionad sin. Is uirlis luachmhar í do ghnólachtaí, do thaighdeoirí, do chartlanna agus d'aon duine a bhíonn ag déileáil le líon mór doiciméad scanta mar gheall ar a sraith chuimsitheach gnéithe, lena n-áirítear tacaíocht d'iltheangacha, optamú PDF, rialú ciseal téacs, agus próiseáil uathoibrithe.

Ag Sracfhéachaint

Forbhreathnú ar ghnéithe OCRmyPDF.

Gnéithe Forbhreathnú

Déan OCR
Cuir Cumais OCR leis
Aithnigh téacs Íomhá
Convet íomhánna de théacs
Téacs Cló Aitheanta
Cuardaigh PDF
Teangacha Eile
Cruthaigh aipeanna OCR
Sábháil sa bhrabhsálaí
Sliocht Téacs
Tacaíocht Il-snáithe

OCRmyPDF

Tacaíonn OCRmyPDF le formáidí comhaid íomhánna a bhfuil an-tóir orthu thíos.

Léitheoir

PNG, JPEG, BMP, TIFF, TGA, DICOM

Scríbhneoir

PNG, JPEG, BMP, TIFF

OCRmyPDF

Neamhspleáchas Ardáin

Is féidir le OCRmyPDF oibriú le Python 2.7 agus os a chionn.

Python 2.7 & thuas.

OCRmyPDF

Tosú ar OCRmyPDF

Is é an bealach molta chun OCRmyPDF a shuiteáil ná pip a úsáid. Bain úsáid as an ordú seo a leanas le haghaidh suiteáil rianúil.

Suiteáil OCRmyPDF trí pip

 pip install ocrmypdf

Is féidir leat é a shuiteáil de láimh freisin; íoslódáil na comhaid eisithe is déanaí go díreach ó GitHub stór.

uasmhéadú PDF ag úsáid Python API

Chuir leabharlann foinse oscailte OCRmyPDF tacaíocht ar fáil do ghnéithe an-úsáideacha chun méid agus cáilíocht doiciméad PDF a bhainistiú laistigh d’fheidhmchláir Python. Úsáideann an leabharlann teicnící optamaithe PDF chun méid comhaid a laghdú agus an caighdeán is airde is féidir a choinneáil. Trí chomhbhrú agus íosshampláil a chur i bhfeidhm, cinntíonn sé go mbíonn na comhaid PDF atá cumasaithe le OCR dá bharr sin éifeachtach le stóráil agus go tapa le luchtú. Soláthraíonn OCRmyPDF roinnt roghanna barrfheabhsaithe ar féidir leat a shaincheapadh bunaithe ar do chuid riachtanas. I measc na roghanna a úsáidtear go coitianta tá comhaid shealadacha a bhaint, comhbhrú JBIG2 a chur i bhfeidhm, gan bacadh le cur leis an OCR, comhbhrú gan chailliúint a dhíchumasú chun méid comhaid a laghdú agus mar sin de.

Conas Comhaid PDF a bharrfheabhsú ag baint úsáide as Python API?

import subprocess

def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
    try:
        # OCRmyPDF command with optimization options
        command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
        
        # Execute the OCRmyPDF command
        subprocess.run(command, check=True)
        
        print("PDF optimization complete!")
    except subprocess.CalledProcessError as e:
        print(f"OCRmyPDF error: {e}")
        
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'

optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)

Comhtháthú Sraithe Téacs PDF trí Python API

Soláthraíonn OCRmyPDF, leabharlann foinse oscailte, réiteach cumhachtach chun sraitheanna téacs a chomhtháthú i gcomhaid PDF, chun inrochtaineacht doiciméad agus cumas cuardaigh a fheabhsú. Cuireann an leabharlann sraith téacs ina bhfuil téacs a ghintear le OCR go díreach isteach sa doiciméad PDF, ag cinntiú go gcaomhnaítear an leagan amach bunaidh. Cumasaíonn an ghné seo cuardach téacs iomlán, cóip-ghreamú, agus eastóscadh téacs. Agus tú ag obair le doiciméid PDF, tá sé an-bhuntáiste go mbeadh sraith téacs comhtháite laistigh den chomhad. Tá an téacs aitheanta a ghintear le OCR sa tsraith téacs, rud a fhágann gur féidir an PDF a chuardach agus a cheadaíonn cóipeáil agus asbhaint éasca téacs. Leis an gcomhtháthú seo caomhnaítear leagan amach an bhundoiciméid agus é ag cumasú oibríochtaí bunaithe ar théacs, ag cur le húsáideacht agus éifeachtúlacht doiciméad.