1. Ürün:% s
  2.   PDF
  3.   Python
  4.   PyMuPDF
 
  

Cinsiyet PDF Files, Extract Text & Images via Free Python Library

Free Python API, PDF Files'u düzenleme ve dönüştürmeye izin verir; metin ve görüntüler, PDF sayfa düzenleme, bir araya/split & PDF'ları kolaylıkla dönüştürür.

YouPDF, Python'un MuPDF'ya bağlayıcı ve soyutlamasını sağlayan hafif bir açık kaynak Python API. API boyutu küçük ama henüz çok hızlı ve PDF, XPS, OpenXPS, CB, PUB ve FB2 (eBooks) de dahil olmak üzere birçok popüler belge biçimini destekler. PisaMuPD çok güvenilirdir ve üst tutma yeteneği için bilinir. Kütüphane çok hafif ağırlık olduğu gibi, kaynakların genellikle akıllı telefonlar gibi sınırlı olduğu platformlar için harika bir seçim yapar.

PDF belgesi oluşturma ve dönüştürme için PyMuPDF API tarafından desteklenen, PDF'yi PNG'ye dönüştürme, meta verilere erişme ve bunları görüntüleme, ana hatlarla çalışma, bir sayfayı raster veya vektör (SVG) görüntüsüne dönüştürme, PDF metni gibi çok sayıda temel ve gelişmiş özellik vardır. Arama desteği, PDF sayfasından metin ayıklama, PDF'den görüntü çıkarma, Görüntüyü GUI'lerde görüntüleme, PDF sayfasını değiştirme, yeni PDF sayfaları oluşturma, istenmeyen PDF sayfalarını silme, Veri Gömme vb. PyMuPDF, Mac, Linux ve Windows gibi çok sayıda platform için destek içermektedir.

Previous Next

PisaMuPDF ile başlayın

PisaMuPDF boru kullanılarak kurulabilir, aşağıdaki komutlar platformunuz için mevcutsa bir Python tekerleğinden yüklenecektir.

PisaMuPDF Boru yoluyla

 python -m pip install --upgrade pip
python -m pip install --upgrade pymupdf
 

Clone PyMuPDF Tarafından Up Repository

 git clone https://github.com/pymupdf/PyMuPDF.git 

Manuel olarak kurmak da mümkündür; en son sürüm dosyalarını doğrudan GitHub deposundan indirin.

Python aracılığıyla PDF Files'da Text'i arayın

PDF, internetteki belgeleri paylaşmak için dünyanın en sevdiği dosya formatlarından biri olmuştur, çünkü içindeki tüm metin formatını ve grafikleri korur. Ancak bu dosyaların içinde başka belgelerle kıyaslanmak kolay değildir. Ücretsiz YouPDF kütüphanesi, yazılım geliştiricilerinin Python uygulamaları içinde metin arama yeteneklerini eklemelerine olanak sağlar. Sayfada belirli bir metin dizesinin nerede olduğunu aramanıza izin verir.

PDF Page Text String Python ile Nerede Görünüyor

areas = page.search_for("mupdf") 

Python API ile PDF Text ve Images

Açık kaynak YouPDF kütüphanesi PDF metin ve görüntülerle çalışmak için birkaç önemli özellik içeriyordu. Kütüphane, PDF dokümandan gelen görüntüler için çeşitli işlevleri sağladı. Varsayılan olarak, çizgi molaları ile düz metin çıkarılmasına izin verir. Hiçbir formatlama, metin pozisyonu ayrıntıları yok, görüntüler yok. Dahası, bir metin bloklarının listesini oluşturmak, herhangi bir görüntü ve daha fazlası da dahil olmak üzere sayfanın tam bir görsel versiyonunu oluşturmak.

Text from PDF via Python API

from operator import itemgetter
from itertools import groupby
import fitz
doc = fitz.open( 'mydocument.pdf' )
pages = [ doc[ i ] for i in range( doc.pageCount ) ]
for page in pages:
  text_words = page.getTextWords()
  # The words should be ordered by y1 and x0
  sorted_words = SortedCollection( key = itemgetter( 3, 0 ) )
  for word in text_words:
    sorted_words.insert( word )
  # At this point you already have an ordered list. If you need to 
  # group the content by lines, use groupby with y1 as a key
  lines = groupby( sorted_words, key = itemgetter( 3 ) )

Katıl ve Python'da PDF Belge

Farklı PDF dosyaları birleştirmek, kullanıcılara bir düzine ayrı PDF'e sahip olmak yerine bir PDF'e sahip olma yeteneği veren çok kullanışlı bir özelliktir. Ücretsiz ve açık kaynaklı çapraz platform YouPDF kütüphane, yazılım programcıları farklı dosyaları birleştirmek veya farklı PDF belge arasındaki sayfaları kolayca kopyalamak için verir. Ayrıca kullanıcıların büyük PDF belgeyi sadece birkaç Python kodu ile küçük dosyalara ayırma gücü verir. Ayrıca PDF belgesinin bazı özel sayfalarını seçmek ve bunun dışında yeni bir belge oluşturmak mümkündür.

Yeni Dokümanı İlk & Son 10 Sayfadan Oluşturun

doc2 = fitz.open()                 # new empty PDF
doc2.insert_pdf(doc1, to_page = 9)  # first 10 pages
doc2.insert_pdf(doc1, from_page = len(doc1) - 10) # last 10 pages
doc2.save("first-and-last-10.pdf")

Read & Export PDF Metadata to CSV via Python

Açık kaynak YouPDF kütüphanesi, herhangi bir dış bağımlılık olmadan PDF dosyayı okumak ve okumak için tam işlevsellik sağladı. Yaratılış, yazar, başlık, yaratıcı uygulama, herhangi bir konu, şifreleme yöntemi, dosya formatı ve benzeri çeşitli metadata anahtarlarını destekler. Ayrıca metadata'yı CSV formata ihraç etmek de mümkündür.

 

Export PDF Metadata to CSV via Python API

import csv
import fitz
import argparse
parser = argparse.ArgumentParser(description="Enter CSV delimiter [;], CSV filename and documment filename")
parser.add_argument('-d', help='CSV delimiter [;]', default = ';')
parser.add_argument('-x', help='delete XML info [n]', default = 'n')
parser.add_argument('-csv', help='CSV filename')
parser.add_argument('-pdf', help='PDF filename')
args = parser.parse_args()
delim = args.d               # requested CSV delimiter character
assert args.csv, "missing CSV filename"
assert args.pdf, "missing PDF filename"
print "delimiter", args.d
print "xml delete", args.x
print "csv file", args.csv
print "pdf file", args.pdf
print "----------------------------------------"
doc = fitz.open(args.pdf)
oldmeta = doc.metadata
print "old metadata:"
for k,v in oldmeta.items():
    print k, ":",v
with open(args.csv) as tocfile:
    tocreader = csv.reader(tocfile, delimiter = delim)
    for row in tocreader:
        assert len(row) == 2, "each row must contain 2 entries"
        oldmeta[row[0]] = row[1]
print "----------------------------------------"
print "\nnew metadata:"
for k,v in oldmeta.items():
    print k, ":",v
doc.set_metadata(oldmeta)
doc.saveIncr()
 Türkçe