Extrageți informații din PDF-uri prin Biblioteca Python gratuită
API-ul Python gratuit care permite dezvoltatorilor să extragă informații din documente PDF și să convertească PDF în alte formate și realizează o analiză automată a aspectului.
PDFMiner este o bibliotecă Python cu sursă deschisă foarte ușor de utilizat pentru procesarea fișierelor PDF fără alte dependențe. PDFMine.six furk întreținut de comunitate a bibliotecii originale PDFMiner. Biblioteca a oferit funcții foarte puternice pentru extragerea de informații din documente PDF. Oferă un utilitar de comandă pentru non-programatori și o interfață API pentru programatori. Un convertor PDF puternic face, de asemenea, parte din bibliotecă, care ajută utilizatorii să transforme fișiere PDF în alte formate de text, cum ar fi HTML.
PDFMiner este o bibliotecă pură Python care poate extrage cu ușurință toate textele dintr-un fișier PDF care sunt redate în mod programatic. Marea capacitate este că extrage, de asemenea, locațiile corespunzătoare, numele și dimensiunile fonturilor și direcția de scriere (orizontală sau verticală) pentru fiecare segment de text. Acceptă specificația PDF-1.7 și oferă suport pentru extragerea documentelor PDF protejate prin parolă. Biblioteca a inclus câteva alte caracteristici importante, cum ar fi analizarea, analizarea și conversia documentelor PDF, extragerea conținutului ca HTML sau hOCR, suport pentru scripturi de scriere verticală, suport pentru criptare RC4 și AES, extragerea cuprinsului, extragerea conținutului etichetat, aspect automat analiză și așa mai departe.
Noțiuni introductive cu PDFMiner
PDFMiner necesită Python 3.6 și o versiune ulterioară. Puteți instala PDFMiner folosind pip. Vă rugăm să utilizați următoarea comandă pentru a o instala.
Instalați PDFMiner prin pip
pip install pdfminer
De asemenea, puteți să descărcați biblioteca partajată compilată din depozitul GitHub și să o instalați.
Extrageți text din fișierul PDF prin Python
Biblioteca open source Pdfminer.six oferă dezvoltatorilor de software posibilitatea de a extrage text dintr-un fișier PDF cu doar câteva rânduri de cod Python. Biblioteca se concentrează pe obținerea și analiza datelor text și apoi extrage textul dintr-o pagină direct din codul sursă al PDF-ului. De asemenea, biblioteca permite dezvoltatorilor să extragă imagini (JPG, JBIG2, Bitmaps) dintr-un fișier PDF. De asemenea, este posibil să extrageți numele fontului sau dimensiunea fiecărui caracter individual. Următoarele exemple arată cum să extrageți textul dintr-un fișier PDF și să îl tipăriți pe ecran.
Deschideți și manipulați documente PDF prin Python
from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)
Convertiți fișierul PDF în hOCR prin API-ul Python
hOCR este un standard deschis de reprezentare a datelor pentru text formatat, obținut prin recunoașterea optică a caracterelor (OCR). Bibliotecile gratuite Pdfminer.six permit dezvoltatorilor de software să convertească fișiere PDF în format hOCR cu doar câteva linii de cod Python. Biblioteca este foarte ușor de manevrat și poate extrage informațiile text explicite din acele PDF-uri care le au și le folosește pentru a genera o reprezentare de bază hOCR.
Convertiți fișierul PDF în text prin Python
Biblioteca include un set bogat de caracteristici și capabilități care vă permit să vă extindeți dincolo de procesarea de bază PDF. Biblioteca open source Pdfminer.six le permite dezvoltatorilor Python să convertească documentele PDF în text cu doar câteva comenzi simple. Mai întâi trebuie să furnizați calea către fișierele PDF, precum și către fișierul text. Dacă documentul este protejat prin parolă, trebuie să furnizați și parola acestuia. Următorul exemplu de cod poate fi folosit pentru a atinge scopul, pur și simplu va returna șirul într-un PDF, având în vedere numele său de fișier, îl puteți salva cu ușurință într-un fișier.
Convertiți fișierul PDF în format text prin API-ul Python
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = open(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0
caching = True
pagenos=set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
fp.close()
device.close()
retstr.close()
return text