1. Tuotteet
  2.   PDF
  3.   Python
  4.   PDFMiner
 
  

Poimi tiedot PDF-tiedostoista ilmaisen Python-kirjaston kautta

Ilmainen Python API, jonka avulla kehittäjät voivat poimia tietoja PDF-dokumenteista ja muuntaa PDF-tiedostoja muihin muotoihin ja suorittaa automaattisen asetteluanalyysin.

PDFMiner on avoimen lähdekoodin erittäin helppokäyttöinen Python-kirjasto PDF-tiedostojen käsittelyyn ilman muita riippuvuuksia. PDFMine.six alkuperäisen PDFMiner-kirjaston yhteisön ylläpitämä haarukka. Kirjasto on tarjonnut erittäin tehokkaita ominaisuuksia tiedon poimimiseen PDF-dokumenteista. Se tarjoaa komentoapuohjelman muille kuin ohjelmoijille ja API-rajapinnan ohjelmoijille. Tehokas PDF-muunnin on myös osa kirjastoa, jonka avulla käyttäjät voivat muuntaa PDF-tiedostoja muihin tekstimuotoihin, kuten HTML-muotoon.

PDFMiner on puhdas Python-kirjasto, joka voi helposti poimia kaikki ohjelmallisesti renderöidyt tekstit PDF-tiedostosta. Suuri ominaisuus on, että se poimii myös vastaavat sijainnit, kirjasinten nimet ja koot sekä kirjoitussuunnan (vaaka- tai pystysuora) jokaiselle tekstisegmentille. Se tukee PDF-1.7-spesifikaatiota ja tukee salasanalla suojattua PDF-dokumentin purkamista. Kirjastossa on useita muita tärkeitä ominaisuuksia, kuten PDF-dokumenttien jäsentäminen, analysointi ja muuntaminen, sisällön purkaminen HTML- tai hOCR-muodossa, tuki pystysuoralle kirjoitusskriptille, RC4- ja AES-salauksen tuki, sisällysluettelon purkaminen, koodatun sisällön purkaminen, automaattinen asettelu analyysi ja niin edelleen.

Previous Next

PDFMinerin käytön aloittaminen

PDFMiner vaatii Python 3.6:n tai uudemman. Voit asentaa PDFMinerin pip:n avulla. Käytä seuraavaa komentoa asentaaksesi sen.

Asenna PDFMiner pipin kautta

 pip install pdfminer 

Voit myös ladata käännetyn jaetun kirjaston GitHub-arkistosta ja asentaa sen.

Pura teksti PDF-tiedostosta Pythonin kautta

Avoimen lähdekoodin Pdfminer.six-kirjasto antaa ohjelmistokehittäjille mahdollisuuden poimia tekstiä PDF-tiedostosta vain muutamalla Python-koodirivillä. Kirjasto keskittyy tekstidatan saamiseen ja analysointiin ja sen jälkeen poimii tekstin sivulta suoraan PDF:n lähdekoodista. Kirjaston avulla kehittäjät voivat myös poimia kuvia (JPG, JBIG2, Bitmaps) PDF-tiedostosta. On myös mahdollista poimia jokaisen yksittäisen merkin fonttinimi tai koko. Seuraavat esimerkit osoittavat, kuinka teksti puretaan PDF-tiedostosta ja tulostetaan näytölle.

Avaa ja käsittele PDF-dokumentteja Pythonin kautta

 from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)

Muunna PDF-tiedosto hOCR:ksi Python API:n kautta

hOCR on optisella merkintunnistuksella (OCR) saadun muotoillun tekstin tietojen esittämisen avoin standardi. Ilmaisten Pdfminer.six-kirjastojen avulla ohjelmistokehittäjät voivat muuntaa PDF-tiedostoja hOCR-muotoon vain muutamalla Python-koodirivillä. Kirjastoa on erittäin helppo käsitellä, ja se voi poimia eksplisiittiset tekstitiedot niistä PDF-tiedostoista, joissa se on, ja käyttää sitä hOCR-perusesityksen luomiseen.

Muunna PDF-tiedosto tekstiksi Pythonin avulla

Kirjasto sisältää runsaasti ominaisuuksia ja ominaisuuksia, joiden avulla voit laajentaa PDF-peruskäsittelyä pidemmälle. Avoimen lähdekoodin Pdfminer.six-kirjaston avulla Python-kehittäjät voivat muuntaa PDF-dokumentteja tekstiksi muutamalla yksinkertaisella komennolla. Ensin sinun on annettava polku PDF-tiedostoihin sekä tekstitiedosto. Jos asiakirja on suojattu salasanalla, sinun on annettava myös sen salasana. Seuraavaa koodiesimerkkiä voidaan käyttää tavoitteen saavuttamiseen, se yksinkertaisesti palauttaa merkkijonon PDF-tiedostossa, koska sen tiedostonimi antaa, voit helposti tallentaa sen tiedostoon.

Muunna PDF-tiedosto tekstimuotoon Python API:n kautta

 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)
    text = retstr.getvalue()
    fp.close()
    device.close()
    retstr.close()
    return text
 Suomen