Extrahera information från PDF-filer via gratis Python-bibliotek

Gratis Python API som gör det möjligt för utvecklare att extrahera information från PDF-dokument och konvertera PDF till andra format och Utför automatisk layoutanalys.

PDFMiner är ett mycket lättanvänt Python-bibliotek med öppen källkod för att bearbeta PDF-filer utan några andra beroenden. PDFMine.six gemenskapsunderhållen gaffel av det ursprungliga PDFMiner-biblioteket. Biblioteket har tillhandahållit mycket kraftfulla funktioner för att extrahera information från PDF-dokument. Det tillhandahåller ett kommandoverktyg för icke-programmerare och ett API-gränssnitt för programmerare. En kraftfull PDF-konverterare är också en del av biblioteket som hjälper användare att omvandla PDF-filer till andra textformat som HTML.

PDFMiner är ett rent Python-bibliotek som enkelt kan extrahera alla texter från en PDF-fil som renderas programmatiskt. Den stora förmågan är att den också extraherar motsvarande platser, teckensnittsnamn och storlekar och skrivriktning (horisontell eller vertikal) för varje textsegment. Den stöder PDF-1.7-specifikationen och ger stöd för lösenordsskyddad PDF-dokumentextraktion. Biblioteket har inkluderat flera andra viktiga funktioner, såsom att analysera, analysera och konvertera PDF-dokument, extrahera innehåll som HTML eller hOCR, stöd för vertikala skrivskript, RC4- och AES-krypteringsstöd, extrahera innehållsförteckning, extrahering av taggat innehåll, automatisk layout analys och så vidare.

En överblick

En översikt över PDFMiner-funktioner.

Funktioner Översikt

Analysera PDF
Analysera PDF
Konvertera PDF-filer
Reparation av pdf
Extrahera text
PDF till HTML
PDF till XML
Roterande PDF-filer
CJK-språk
Grundläggande kryptering
TOC-extraktion
AVolika teckensnittstyper

PDFMiner

PDFMiner stöder PDF-filformat såväl som industristandardformat för export.

Läsare

Författare

PDF, TXT, HTML, MML

PDFMiner

Plattformsoberoende

PDFMiner är testad med Python 3.6 och högre.

Python 3.6 och senare

PDFMiner

Komma igång med PDFMiner

PDFMiner kräver Python 3.6 och högre. Du kan installera PDFMiner med pip. Använd följande kommando för att installera det.

Installera PDFMiner via pip

 pip install pdfminer

Du kan också ladda ner det kompilerade delade biblioteket från GitHub-förvaret och installera det.

Extrahera text från PDF-fil via Python

Pdfminer.six-biblioteket med öppen källkod ger mjukvaruutvecklare möjligheten att extrahera text från en PDF-fil med bara ett par rader Python-kod. Biblioteket fokuserar på att hämta och analysera textdata och efter det extraherar texten från en sida direkt från PDF:ens källkod. Biblioteket tillåter också utvecklare att extrahera bilder (JPG, JBIG2, Bitmaps) från en PDF-fil. Det är också möjligt att extrahera teckensnittsnamnet eller storleken på varje enskilt tecken. Följande exempel visar hur man extraherar texten från en PDF-fil och skriver ut den på skärmen.

Öppna och manipulera PDF-dokument via Python

 from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)

Konvertera PDF-fil till hOCR via Python API

hOCR är en öppen standard för datarepresentation för formaterad text som erhålls från optisk teckenigenkänning (OCR). De kostnadsfria biblioteken Pdfminer.six tillåter programutvecklare att konvertera PDF-filer till hOCR-format med bara ett par rader Python-kod. Biblioteket är mycket lätt att hantera och kan extrahera den explicita textinformationen från de PDF-filer som har den och använder den för att generera en grundläggande hOCR-representation.

Konvertera PDF-fil till text via Python

Biblioteket innehåller en mängd funktioner och funktioner som gör att du kan sträcka dig utöver den grundläggande PDF-bearbetningen. Pdfminer.six-biblioteket med öppen källkod låter oss Python-utvecklare konvertera PDF-dokument till text med bara ett par enkla kommandon. Först måste du ange sökvägen till PDF-filer samt textfilen. Om dokumentet är lösenordsskyddat måste du också ange lösenordet. Följande kodexempel kan användas för att uppnå målet, det returnerar helt enkelt strängen i en PDF, med tanke på dess filnamn, kan du enkelt spara den i en fil.

Konvertera PDF-fil till textformat via Python API

 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)
    text = retstr.getvalue()
    fp.close()
    device.close()
    retstr.close()
    return text