1. Produkti
  2.   PDF
  3.   Python
  4.   PDFMiner
 
  

Izņemiet informāciju no PDF failiem, izmantojot bezmaksas Python bibliotēku

Bezmaksas Python API, kas ļauj izstrādātājiem iegūt informāciju no PDF dokumentiem un pārvērst PDF citos formātos un veic automātisku izkārtojuma analīzi.

PDFMiner ir atvērtā koda ļoti viegli lietojama Python bibliotēka PDF failu apstrādei bez citām atkarībām. PDFMine.six kopienas uzturēta sākotnējās PDFMiner bibliotēkas daļa. Bibliotēka ir nodrošinājusi ļoti jaudīgus līdzekļus informācijas iegūšanai no PDF dokumentiem. Tas nodrošina komandu utilītu neprogrammētājiem un API saskarni programmētājiem. Jaudīgs PDF pārveidotājs ir arī daļa no bibliotēkas, kas palīdz lietotājiem pārveidot PDF failus citos teksta formātos, piemēram, HTML.

PDFMiner ir tīra Python bibliotēka, kas var viegli izvilkt visus tekstus no PDF faila, kas tiek atveidoti programmatiski. Lieliskā iespēja ir tā, ka tā katram teksta segmentam izvelk arī atbilstošās atrašanās vietas, fontu nosaukumus un izmērus, kā arī rakstīšanas virzienu (horizontāli vai vertikāli). Tā atbalsta PDF-1.7 specifikāciju un nodrošina atbalstu ar paroli aizsargātu PDF dokumentu izvilkšanai. Bibliotēkā ir iekļautas vairākas citas svarīgas funkcijas, piemēram, PDF dokumentu parsēšana, analīze un konvertēšana, satura izvilkšana HTML vai hOCR formātā, vertikālās rakstīšanas skriptu atbalsts, RC4 un AES šifrēšanas atbalsts, satura rādītāja izvilkšana, tagu satura izvilkšana, automātiskais izkārtojums. analīze un tā tālāk.

Previous Next

Darba sākšana ar PDFMiner

PDFMiner nepieciešama Python 3.6 un jaunāka versija. PDFMiner var instalēt, izmantojot pip. Lūdzu, izmantojiet šo komandu, lai to instalētu.

Instalējiet PDFMiner, izmantojot pip

 pip install pdfminer 

Varat arī lejupielādēt apkopoto koplietoto bibliotēku no GitHub krātuves un to instalēt.

Izņemiet tekstu no PDF faila, izmantojot Python

Atvērtā pirmkoda bibliotēka Pdfminer.six sniedz programmatūras izstrādātājiem iespēju izvilkt tekstu no PDF faila, izmantojot tikai dažas Python koda rindas. Bibliotēka koncentrējas uz teksta datu iegūšanu un analīzi un pēc tam izvelk tekstu no lapas tieši no PDF avota koda. Bibliotēka arī ļauj izstrādātājiem iegūt attēlus (JPG, JBIG2, bitkartes) no PDF faila. Ir iespējams arī iegūt katras atsevišķas rakstzīmes fonta nosaukumu vai lielumu. Šie piemēri parāda, kā izvilkt tekstu no PDF faila un izdrukāt to uz ekrāna.

Atvērt un manipulēt ar PDF dokumentiem, izmantojot Python

 from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)

Konvertējiet PDF failu uz hOCR, izmantojot Python API

hOCR ir atvērts datu attēlojuma standarts formatētam tekstam, kas iegūts no optiskās rakstzīmju atpazīšanas (OCR). Bezmaksas Pdfminer.six bibliotēkas ļauj programmatūras izstrādātājiem pārvērst PDF failus hOCR formātā, izmantojot tikai dažas Python koda rindas. Bibliotēka ir ļoti viegli apstrādājama, un tā var iegūt skaidru teksta informāciju no tiem PDF failiem, kuriem tā ir, un izmanto to, lai ģenerētu pamata hOCR attēlojumu.

Konvertējiet PDF failu uz tekstu, izmantojot Python

Bibliotēkā ir iekļauts bagātīgs funkciju kopums un iespējas, kas ļauj paplašināt PDF pamata apstrādi. Atvērtā pirmkoda Pdfminer.six bibliotēka ļaus Python izstrādātājiem pārvērst PDF dokumentus tekstā, izmantojot tikai dažas vienkāršas komandas. Vispirms jums ir jānorāda ceļš uz PDF failiem, kā arī teksta failu. Ja dokuments ir aizsargāts ar paroli, jums ir jānorāda arī tā parole. Šo koda piemēru var izmantot, lai sasniegtu mērķi, tas vienkārši atgriež virkni PDF failā, ņemot vērā tā faila nosaukumu, jūs varat to viegli saglabāt failā.

Konvertējiet PDF failu teksta formātā, izmantojot Python API

 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)
    text = retstr.getvalue()
    fp.close()
    device.close()
    retstr.close()
    return text
 Latviski