Extrahera information från PDF-filer via gratis Python-bibliotek
Gratis Python API som gör det möjligt för utvecklare att extrahera information från PDF-dokument och konvertera PDF till andra format och Utför automatisk layoutanalys.
PDFMiner är ett mycket lättanvänt Python-bibliotek med öppen källkod för att bearbeta PDF-filer utan några andra beroenden. PDFMine.six gemenskapsunderhållen gaffel av det ursprungliga PDFMiner-biblioteket. Biblioteket har tillhandahållit mycket kraftfulla funktioner för att extrahera information från PDF-dokument. Det tillhandahåller ett kommandoverktyg för icke-programmerare och ett API-gränssnitt för programmerare. En kraftfull PDF-konverterare är också en del av biblioteket som hjälper användare att omvandla PDF-filer till andra textformat som HTML.
PDFMiner är ett rent Python-bibliotek som enkelt kan extrahera alla texter från en PDF-fil som renderas programmatiskt. Den stora förmågan är att den också extraherar motsvarande platser, teckensnittsnamn och storlekar och skrivriktning (horisontell eller vertikal) för varje textsegment. Den stöder PDF-1.7-specifikationen och ger stöd för lösenordsskyddad PDF-dokumentextraktion. Biblioteket har inkluderat flera andra viktiga funktioner, såsom att analysera, analysera och konvertera PDF-dokument, extrahera innehåll som HTML eller hOCR, stöd för vertikala skrivskript, RC4- och AES-krypteringsstöd, extrahera innehållsförteckning, extrahering av taggat innehåll, automatisk layout analys och så vidare.
Komma igång med PDFMiner
PDFMiner kräver Python 3.6 och högre. Du kan installera PDFMiner med pip. Använd följande kommando för att installera det.
Installera PDFMiner via pip
pip install pdfminer
Du kan också ladda ner det kompilerade delade biblioteket från GitHub-förvaret och installera det.
Extrahera text från PDF-fil via Python
Pdfminer.six-biblioteket med öppen källkod ger mjukvaruutvecklare möjligheten att extrahera text från en PDF-fil med bara ett par rader Python-kod. Biblioteket fokuserar på att hämta och analysera textdata och efter det extraherar texten från en sida direkt från PDF:ens källkod. Biblioteket tillåter också utvecklare att extrahera bilder (JPG, JBIG2, Bitmaps) från en PDF-fil. Det är också möjligt att extrahera teckensnittsnamnet eller storleken på varje enskilt tecken. Följande exempel visar hur man extraherar texten från en PDF-fil och skriver ut den på skärmen.
Öppna och manipulera PDF-dokument via Python
from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)
Konvertera PDF-fil till hOCR via Python API
hOCR är en öppen standard för datarepresentation för formaterad text som erhålls från optisk teckenigenkänning (OCR). De kostnadsfria biblioteken Pdfminer.six tillåter programutvecklare att konvertera PDF-filer till hOCR-format med bara ett par rader Python-kod. Biblioteket är mycket lätt att hantera och kan extrahera den explicita textinformationen från de PDF-filer som har den och använder den för att generera en grundläggande hOCR-representation.
Konvertera PDF-fil till text via Python
Biblioteket innehåller en mängd funktioner och funktioner som gör att du kan sträcka dig utöver den grundläggande PDF-bearbetningen. Pdfminer.six-biblioteket med öppen källkod låter oss Python-utvecklare konvertera PDF-dokument till text med bara ett par enkla kommandon. Först måste du ange sökvägen till PDF-filer samt textfilen. Om dokumentet är lösenordsskyddat måste du också ange lösenordet. Följande kodexempel kan användas för att uppnå målet, det returnerar helt enkelt strängen i en PDF, med tanke på dess filnamn, kan du enkelt spara den i en fil.
Konvertera PDF-fil till textformat via Python API
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = open(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0
caching = True
pagenos=set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
fp.close()
device.close()
retstr.close()
return text