Ekstrak Maklumat daripada PDF melalui Perpustakaan Python Percuma

API Python percuma yang membolehkan pembangun mengekstrak maklumat daripada dokumen PDF dan menukar PDF kepada format lain dan Menjalankan analisis reka letak automatik.

PDFMiner ialah pustaka Python sumber terbuka yang sangat mudah digunakan untuk memproses fail PDF tanpa sebarang kebergantungan lain. PDFMine.enam garpu yang diselenggara komuniti bagi perpustakaan PDFMiner asal. Perpustakaan telah menyediakan ciri yang sangat berkuasa untuk mengekstrak maklumat daripada dokumen PDF. Ia menyediakan utiliti arahan untuk Bukan Pengaturcara dan antara muka API untuk pengaturcara. Penukar PDF yang berkuasa juga merupakan sebahagian daripada perpustakaan yang membantu pengguna mengubah fail PDF kepada format teks lain seperti HTML.

PDFMiner ialah perpustakaan Python tulen yang boleh mengekstrak semua teks dengan mudah daripada fail PDF yang diberikan secara pemrograman. Keupayaan hebatnya ialah ia juga mengekstrak lokasi, nama & saiz fon yang sepadan, dan arah penulisan (mendatar atau menegak) untuk setiap segmen teks. Ia menyokong spesifikasi PDF-1.7 dan menyediakan sokongan untuk pengekstrakan dokumen PDF yang dilindungi kata laluan. Perpustakaan ini telah menyertakan beberapa ciri penting lain, seperti menghuraikan, menganalisis dan menukar dokumen PDF, mengekstrak kandungan sebagai HTML atau hOCR, sokongan untuk skrip penulisan menegak, sokongan penyulitan RC4 dan AES, mengekstrak jadual kandungan, pengekstrakan kandungan bertanda, reka letak automatik analisis dan sebagainya.

Sekali pandang

Gambaran keseluruhan ciri PDFMiner.

Gambaran Keseluruhan Ciri

Menghuraikan PDF
Analisis PDF
Tukar Fail PDF
Pembaikan PDF
Ekstrak teks
PDF ke HTML
PDF kepada XML
Memutar PDF
bahasa CJK
Penyulitan asas
Pengekstrakan TOC
Pelbagai jenis fon

PDFMiner

PDFMiner menyokong format fail PDF serta format standard industri untuk eksport.

Pembaca

Penulis

PDF, TXT, HTML, MML

PDFMiner

Kemerdekaan Platform

PDFMiner diuji dengan Python 3.6 dan lebih tinggi.

Python 3.6 & lebih tinggi

PDFMiner

Bermula dengan PDFMiner

PDFMiner memerlukan Python 3.6 dan lebih tinggi. Anda boleh memasang PDFMiner menggunakan pip. Sila gunakan arahan berikut untuk memasangnya.

Pasang PDFMiner melalui pip

 pip install pdfminer

Anda juga boleh memuat turun perpustakaan kongsi yang disusun daripada repositori GitHub dan memasangnya.

Ekstrak Teks daripada Fail PDF melalui Python

Pustaka Pdfminer.six sumber terbuka memberi pembangun perisian keupayaan untuk mengekstrak teks daripada fail PDF dengan hanya beberapa baris kod Python. Perpustakaan memberi tumpuan kepada mendapatkan dan menganalisis data teks dan selepas itu mengekstrak teks daripada halaman terus daripada kod sumber PDF. Perpustakaan ini juga membenarkan pembangun mengekstrak imej (JPG, JBIG2, Bitmaps) daripada fail PDF. Ia juga mungkin untuk mengekstrak Nama Font atau saiz setiap aksara individu. Contoh berikut menunjukkan cara mengekstrak teks daripada fail PDF dan mencetaknya pada skrin.

Buka & Manipulasi Dokumen PDF melalui Python

 from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)

Tukar Fail PDF kepada hOCR melalui API Python

hOCR ialah standard terbuka perwakilan data untuk teks berformat yang diperoleh daripada pengecaman aksara optik (OCR). Perpustakaan Pdfminer.six percuma membenarkan pembangun perisian menukar fail PDF kepada format hOCR dengan hanya beberapa baris kod Python. Perpustakaan ini sangat mudah dikendalikan dan boleh mengekstrak maklumat teks eksplisit daripada PDF yang mempunyainya dan menggunakannya untuk menjana perwakilan hOCR asas.

Tukar Fail PDF kepada Teks melalui Python

Perpustakaan ini termasuk set ciri yang kaya dan keupayaan yang membolehkan anda melangkaui pemprosesan PDF asas. Pustaka Pdfminer.six sumber terbuka membolehkan pembangun Python menukar dokumen PDF kepada teks dengan hanya beberapa arahan mudah. Mula-mula anda perlu menyediakan laluan ke fail PDF serta fail Teks. Jika dokumen dilindungi kata laluan, anda juga perlu memberikan kata laluannya. Contoh kod berikut boleh digunakan untuk mencapai matlamat, ia hanya akan mengembalikan rentetan dalam PDF, memandangkan nama failnya, anda boleh menyimpannya dengan mudah ke fail.

Tukar Fail PDF kepada Format Teks melalui API Python

 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)
    text = retstr.getvalue()
    fp.close()
    device.close()
    retstr.close()
    return text