Uddrag oplysninger fra PDF-filer via gratis Python-bibliotek
Gratis Python API, der gør det muligt for udviklere at udtrække information fra PDF-dokumenter og konvertere PDF til andre formater og udfører automatisk layoutanalyse.
PDFMiner er en open source meget let at bruge Python-bibliotek til behandling af PDF-filer uden andre afhængigheder. PDFMine.six community-vedligeholdt gaffel af det originale PDFMiner-bibliotek. Biblioteket har leveret meget kraftfulde funktioner til at udtrække information fra PDF-dokumenter. Det giver et kommandoværktøj til ikke-programmerere og en API-grænseflade til programmører. En kraftfuld PDF-konverter er også en del af biblioteket, der hjælper brugere med at transformere PDF-filer til andre tekstformater såsom HTML.
PDFMiner er et rent Python-bibliotek, der nemt kan udtrække alle tekster fra en PDF-fil, der gengives programmatisk. Den store evne er, at den også udtrækker de tilsvarende placeringer, skrifttypenavne og -størrelser og skriveretning (vandret eller lodret) for hvert tekstsegment. Den understøtter PDF-1.7-specifikation og understøtter adgangskodebeskyttet PDF-dokumentudtrækning. Biblioteket har inkluderet adskillige andre vigtige funktioner, såsom at analysere, analysere og konvertere PDF-dokumenter, udtrække indhold som HTML eller hOCR, understøttelse af vertikal skrivning af scripts, RC4- og AES-krypteringsunderstøttelse, udtrækning af indholdsfortegnelse, udtrækning af tagget indhold, automatisk layout analyse og så videre.
Kom godt i gang med PDFMiner
PDFMiner kræver Python 3.6 og nyere. Du kan installere PDFMiner ved hjælp af pip. Brug venligst følgende kommando til at installere det.
Installer PDFMiner via pip
pip install pdfminer
Du kan også downloade det kompilerede delte bibliotek fra GitHub-lageret og installere det.
Uddrag tekst fra PDF-fil via Python
Open source-biblioteket Pdfminer.six giver softwareudviklere mulighed for at udtrække tekst fra en PDF-fil med blot et par linjer Python-kode. Biblioteket fokuserer på at hente og analysere tekstdata og udtrækker derefter teksten fra en side direkte fra PDF'ens kildekode. Biblioteket giver også udviklere mulighed for at udtrække billeder (JPG, JBIG2, Bitmaps) fra en PDF-fil. Det er også muligt at udtrække skrifttypenavnet eller størrelsen på hvert enkelt tegn. De følgende eksempler viser, hvordan teksten udpakkes fra en PDF-fil og udskrives på skærmen.
Åbn og manipuler PDF-dokumenter via Python
from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)
Konverter PDF-fil til hOCR via Python API
hOCR er en åben standard for datarepræsentation for formateret tekst opnået fra optisk tegngenkendelse (OCR). De gratis Pdfminer.six-biblioteker giver softwareudviklere mulighed for at konvertere PDF-filer til hOCR-format med blot et par linjer Python-kode. Biblioteket er meget nemt at håndtere og kan udtrække den eksplicitte tekstinformation fra de PDF'er, der har det og bruger det til at generere en grundlæggende hOCR-repræsentation.
Konverter PDF-fil til tekst via Python
Biblioteket indeholder et rigt funktionssæt og funktioner, der giver dig mulighed for at strække dig ud over den grundlæggende PDF-behandling. Open source-biblioteket Pdfminer.six lader os Python-udviklere konvertere PDF-dokumenter til tekst med blot et par enkle kommandoer. Først skal du angive stien til PDF-filer samt tekstfilen. Hvis dokumentet er beskyttet med adgangskode, skal du også angive dets adgangskode. Følgende kodeeksempel kan bruges til at nå målet, det vil simpelthen returnere strengen i en PDF, givet dens filnavn, kan du nemt gemme den i en fil.
Konverter PDF-fil til tekstformat via Python API
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = open(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0
caching = True
pagenos=set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
fp.close()
device.close()
retstr.close()
return text