1. Táirgí
  2.   PDF
  3.   Python
  4.   PDFMiner
 
  

Sliocht Faisnéise ó PDFs trí Leabharlann Python In Aisce

API Python saor in aisce a chuireann ar chumas forbróirí faisnéis a bhaint as doiciméid PDF agus PDF a thiontú go formáidí eile agus a dhéanann anailís ar leagan amach uathoibríoch.

Is leabharlann Python foinse oscailte é PDFMiner atá an-éasca le húsáid chun comhaid PDF a phróiseáil gan aon spleáchais eile. PDFMine.six forc arna chothabháil ag an bpobal den bhunleabharlann PDFMiner. Tá gnéithe an-chumhachtacha curtha ar fáil ag an leabharlann chun faisnéis a bhaint as doiciméid PDF. Soláthraíonn sé fóntais ordaithe do Neamh-ríomhchláraitheoirí agus comhéadan API do ríomhchláraitheoirí. Is cuid den leabharlann é tiontaire cumhachtach PDF freisin a chuidíonn le húsáideoirí comhaid PDF a thiontú go formáidí téacs eile ar nós HTML.

Is leabharlann íon Python é an PDFMiner ar féidir léi na téacsanna go léir a bhaint go héasca ó chomhad PDF a dhéantar de réir ríomhchláraithe. Is é an cumas iontach atá ann ná go mbaintear amach freisin na láithreacha comhfhreagracha, ainmneacha cló & méideanna, agus treoir scríbhneoireachta (cothrománach nó ingearach) do gach mír téacs. Tacaíonn sé le sonraíocht PDF-1.7 agus soláthraíonn sé tacaíocht d’eastóscadh doiciméad PDF atá cosanta ag pasfhocal. Tá roinnt gnéithe tábhachtacha eile curtha san áireamh ag an leabharlann, mar shampla parsáil, anailísiú, agus tiontú doiciméid PDF, asbhaint inneachair mar HTML nó hOCR, tacaíocht do scripteanna scríbhneoireachta ingearach, tacaíocht criptithe RC4 agus AES, asbhaint clár na n-ábhar, asbhaint ábhar clibeáilte, leagan amach uathoibríoch. anailís agus mar sin de.

Previous Next

Tús a chur le PDFMiner

Éilíonn PDFMiner Python 3.6 agus níos airde. Is féidir leat PDFMiner a shuiteáil ag baint úsáide as pip. Bain úsáid as an ordú seo a leanas chun é a shuiteáil.

Suiteáil PDFMiner trí pip

 pip install pdfminer 

Is féidir leat freisin an leabharlann chomhroinnte tiomsaithe a íoslódáil ó stór GitHub agus í a shuiteáil.

Sliocht téacs ó chomhad pdf trí python

Tugann leabharlann foinse oscailte Pdfminer.six deis d'fhorbróirí bogearraí téacs a bhaint as comhad PDF le cúpla líne de chód Python. Díríonn an leabharlann ar shonraí téacs a fháil agus a anailísiú agus ina dhiaidh sin baintear an téacs as leathanach go díreach ó chód foinse an PDF. Ligeann an leabharlann freisin d’fhorbróirí íomhánna (JPG, JBIG2, Bitmaps) a bhaint as comhad PDF. Is féidir freisin Clóainm nó méid gach carachtar ar leith a bhaint as. Léiríonn na samplaí seo a leanas conas an téacs a bhaint as comhad PDF agus é a phriontáil ar an scáileán.

Oscail agus ionramháil Doiciméid PDF trí Python

 from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)

Tiontaigh Comhad PDF go hOCR trí Python API

Is caighdeán oscailte ionadaíochta sonraí é hOCR do théacs formáidithe a fhaightear ó aithint optúil carachtar (OCR). Ceadaíonn na leabharlanna Pdfminer.six saor in aisce d'fhorbróirí bogearraí comhaid PDF a thiontú go formáid hOCR le cúpla líne de chód Python. Tá an leabharlann an-éasca le láimhseáil agus is féidir léi an fhaisnéis téacs follasach a bhaint as na PDFanna sin a bhfuil sí acu agus a úsáideann í chun léiriú bunúsach hOCR a ghiniúint.

Comhad PDF a thiontú go Téacs trí Python

Cuimsíonn an leabharlann sraith saibhir gnéithe agus cumais a ligeann duit síneadh níos faide ná an phróiseáil bhunúsach PDF. Ligeann leabharlann foinse oscailte Pdfminer.six d’fhorbróirí Python doiciméid PDF a thiontú go téacs le cúpla ordú simplí. Ar dtús ní mór duit an cosán a sholáthar chuig comhaid PDF chomh maith leis an gcomhad Téacs. Má tá an doiciméad cosanta ag pasfhocal, ní mór duit a phasfhocal a sholáthar freisin. Is féidir an sampla cód seo a leanas a úsáid chun an sprioc a bhaint amach, ní dhéanfaidh sé ach an teaghrán a sheoladh ar ais i PDF, ag cur ainm an chomhaid san áireamh, is féidir leat é a shábháil go héasca ar an gcomhad.

Tiontaigh Comhad PDF go Formáid Téacs trí Python API

 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)
    text = retstr.getvalue()
    fp.close()
    device.close()
    retstr.close()
    return text
 Gaeilge