Ücretsiz Python Kitaplığı aracılığıyla PDF'lerden Bilgi Çıkarın
Geliştiricilerin PDF belgelerinden bilgi çıkarmasına ve PDF'yi diğer biçimlere dönüştürmesine olanak tanıyan ve otomatik yerleşim analizi gerçekleştiren ücretsiz Python API'si.
PDFMiner, PDF dosyalarını başka herhangi bir bağımlılık olmadan işlemek için kullanımı çok kolay bir açık kaynak Python kitaplığıdır. Orijinal PDFMiner kitaplığının PDFMine.six topluluk tarafından sürdürülen çatalı. Kütüphane, PDF belgelerinden bilgi çıkarmak için çok güçlü özellikler sağlamıştır. Programcı Olmayanlar için bir komut yardımcı programı ve programcılar için bir API arabirimi sağlar. Güçlü bir PDF dönüştürücü, kullanıcıların PDF dosyalarını HTML gibi diğer metin biçimlerine dönüştürmesine yardımcı olan kitaplığın bir parçasıdır.
PDFMiner, programlı olarak oluşturulmuş bir PDF dosyasındaki tüm metinleri kolayca çıkarabilen saf bir Python kitaplığıdır. Büyük yeteneği, aynı zamanda her bir metin bölümü için karşılık gelen konumları, yazı tipi adlarını ve boyutlarını ve yazma yönünü (yatay veya dikey) çıkarmasıdır. PDF-1.7 spesifikasyonunu destekler ve parola korumalı PDF belge çıkarma desteği sağlar. Kitaplık, PDF belgelerini ayrıştırma, analiz etme ve dönüştürme, içeriği HTML veya hOCR olarak çıkarma, dikey yazma komut dizileri desteği, RC4 ve AES şifreleme desteği, içindekiler tablosunu çıkarma, etiketli içerik çıkarma, otomatik düzen gibi diğer bazı önemli özellikleri içerir. analiz vb.
PDFMiner'a Başlarken
PDFMiner, Python 3.6 ve üstünü gerektirir. PDFMiner'ı pip kullanarak kurabilirsiniz. Yüklemek için lütfen aşağıdaki komutu kullanın.
PDFMiner'ı pip aracılığıyla kurun
pip install pdfminer
Ayrıca, derlenmiş paylaşılan kitaplığı GitHub deposundan indirebilir ve yükleyebilirsiniz.
Python ile PDF Dosyasından Metin Çıkarın
Açık kaynaklı Pdfminer.six kitaplığı, yazılım geliştiricilere yalnızca birkaç satırlık Python koduyla bir PDF dosyasından metin çıkarma olanağı sağlar. Kitaplık, metin verilerini almaya ve analiz etmeye odaklanır ve ardından metni bir sayfadan doğrudan PDF'nin kaynak kodundan çıkarır. Kitaplık ayrıca geliştiricilerin bir PDF dosyasından görüntüleri (JPG, JBIG2, Bitmap'ler) çıkarmasına olanak tanır. Her bir karakterin Yazı Tipi adını veya boyutunu çıkarmak da mümkündür. Aşağıdaki örnekler, bir PDF dosyasından metnin nasıl çıkarılacağını ve ekrana nasıl yazdırılacağını gösterir.
Python ile PDF Belgelerini Açın ve İşleyin
from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)
Python API aracılığıyla PDF Dosyasını hOCR'ye Dönüştürün
hOCR, optik karakter tanımadan (OCR) elde edilen biçimlendirilmiş metin için açık bir veri gösterimi standardıdır. Ücretsiz Pdfminer.six kitaplıkları, yazılım geliştiricilerin PDF dosyalarını yalnızca birkaç satırlık Python koduyla hOCR formatına dönüştürmesine olanak tanır. Kitaplığın kullanımı çok kolaydır ve buna sahip olan ve onu temel bir hOCR gösterimi oluşturmak için kullanan PDF'lerden açık metin bilgilerini çıkarabilir.
PDF Dosyasını Python ile Metne Dönüştürün
Kitaplık, temel PDF işlemenin ötesine geçmenizi sağlayan zengin bir özellik seti ve yetenekler içerir. Açık kaynaklı Pdfminer.six kitaplığı, Python geliştiricilerinin PDF belgelerini yalnızca birkaç basit komutla metne dönüştürmesine izin verir. Öncelikle, Metin dosyasının yanı sıra PDF dosyalarına giden yolu da sağlamanız gerekir. Belge parola korumalıysa, parolasını da sağlamanız gerekir. Aşağıdaki kod örneği, amaca ulaşmak için kullanılabilir, dosya adı verildiğinde basitçe bir PDF'deki dizeyi döndürür, onu kolayca bir dosyaya kaydedebilirsiniz.
Python API aracılığıyla PDF Dosyasını Metin Formatına Dönüştürün
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = open(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0
caching = True
pagenos=set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
fp.close()
device.close()
retstr.close()
return text