1. Produse
  2.   PDF
  3.   Python
  4.   PyMuPDF
 
  

Gender PDF Files, Extract Text Imagini prin Librăria Python

Free Python API permite editarea și redarea a PDF Fișiere; extragerea text imagini, editarea PDF pagini, fuzionarea/split convertirea cu ușurință a PDFs.

PyMuPDF este o sursă deschisă ușoară, Python API, care adaugă legături Python și abstractizare în PDF. API este de dimensiuni mici, dar foarte rapid și oferă suport pentru o serie de formate populare de documente, inclusiv PDF, XPS, OpenXPS, CB, PUB și FB2 (eBooks) formate și formate populare de imagine. PyMuPD este foarte fiabil și este cunoscut pentru capacitatea sa de redare de top. Deoarece biblioteca este foarte ușoară, este o alegere excelentă pentru platformele în care resursele sunt limitate, cum ar fi smartphone-urile.

Există numeroase caracteristici de bază și avansate susținute de site-ul YouPDF pentru ștergerea și conversia documentelor PDFG, cum ar fi transformarea PDF în NG, accesarea și vizualizarea metadatelor, redarea unei pagini. PyMuPDF a inclus suport pentru numeroase platforme, cum ar fi Mac, Linux și Windows.

Previous Next

Începe cu PyMuPDF

PyMuPDF poate fi instalat folosind țevi, următoarele comenzi se vor instala dintr-o roată Python dacă una este disponibilă pentru platforma ta.

Instalați PyMuPDF prin pip

 python -m pip install --upgrade pip
python -m pip install --upgrade pymupdf
 

Clone PyMuPDF prin intermediul Git Repository

 git clone https://github.com/pymupdf/PyMuPDF.git 

Se poate instala si manual; descărcați cele mai recente fișiere de lansare direct din depozitul GitHub.

Căutare text în PDF de fișiere prin Python

PDF a fost unul dintre formatele preferate de fișiere din lume pentru partajarea documentelor pe internet, deoarece păstrează toate formatele de text și grafica din interiorul acestuia. Dar nu este ușor să căutați text în interiorul acestor fișiere în comparație cu alte documente. Libera bibliotecă PyMuPDF permite dezvoltatorilor de software să adauge capabilități de căutare a textului în aplicațiile lor Python. Acesta permite căutarea pe pagina unde există un anumit șir de text.

Căutați în cazul în care pe pagina PDF String apare prin Python

areas = page.search_for("mupdf") 

PDF Text și imagini prin Python API

Biblioteca open source YouPDF a inclus mai multe caracteristici importante pentru lucrul cu PDF de text și imagini. Biblioteca a oferit diferite funcții pentru extragerea textului, precum și imagini din PDF de documente. În mod implicit, permite extragerea textului simplu cu pauze de linie. Fără formatare, fără detalii de poziție text, fără imagini. Mai mult, suportă generarea unei liste de blocuri de text, generând o listă de cuvinte, creând o versiune vizuală completă a paginii, inclusiv orice imagini și multe altele.

Cum să extrageți textul din PDF prin Python API

from operator import itemgetter
from itertools import groupby
import fitz
doc = fitz.open( 'mydocument.pdf' )
pages = [ doc[ i ] for i in range( doc.pageCount ) ]
for page in pages:
  text_words = page.getTextWords()
  # The words should be ordered by y1 and x0
  sorted_words = SortedCollection( key = itemgetter( 3, 0 ) )
  for word in text_words:
    sorted_words.insert( word )
  # At this point you already have an ordered list. If you need to 
  # group the content by lines, use groupby with y1 as a key
  lines = groupby( sorted_words, key = itemgetter( 3 ) )

Alăturați-vă și împărțiți PDF de documente în Python As

Combinarea diferitelor PDF de fișiere este o caracteristică foarte utilă care oferă utilizatorilor posibilitatea de a avea un PDF în loc de a avea o duzină de PDFs separate. Biblioteca gratuită și open-source YouPDF oferă programatorilor software puterea de a fuziona fișiere diferite sau pagini de copiere între diferite PDF de documente cu ușurință. De asemenea, permite utilizatorilor să împartă PDF de documente mari în fișiere mai mici cu doar câteva linii de cod Python. De asemenea, este posibil să selectați anumite pagini dintr-un document PDF și să creați un nou document.

Creează un nou document din primele 10 pagini

doc2 = fitz.open()                 # new empty PDF
doc2.insert_pdf(doc1, to_page = 9)  # first 10 pages
doc2.insert_pdf(doc1, from_page = len(doc1) - 10) # last 10 pages
doc2.save("first-and-last-10.pdf")

Citește și Export PDF Metadate la CSV via Python

Biblioteca open source YouPDF a oferit funcționalitate completă pentru accesarea și citirea metadatelor a PDF de fișiere fără dependențe externe. Acesta suportă diferite tipuri de chei de metadate, cum ar fi data creării, autorul, titlul, aplicația creatoare, orice subiect, metoda de criptare, formatul fișierului și așa mai departe. De asemenea, este posibil să exporte metadate în format CSV.

 

Export PDF Metadate până la CSV în Python API

import csv
import fitz
import argparse
parser = argparse.ArgumentParser(description="Enter CSV delimiter [;], CSV filename and documment filename")
parser.add_argument('-d', help='CSV delimiter [;]', default = ';')
parser.add_argument('-x', help='delete XML info [n]', default = 'n')
parser.add_argument('-csv', help='CSV filename')
parser.add_argument('-pdf', help='PDF filename')
args = parser.parse_args()
delim = args.d               # requested CSV delimiter character
assert args.csv, "missing CSV filename"
assert args.pdf, "missing PDF filename"
print "delimiter", args.d
print "xml delete", args.x
print "csv file", args.csv
print "pdf file", args.pdf
print "----------------------------------------"
doc = fitz.open(args.pdf)
oldmeta = doc.metadata
print "old metadata:"
for k,v in oldmeta.items():
    print k, ":",v
with open(args.csv) as tocfile:
    tocreader = csv.reader(tocfile, delimiter = delim)
    for row in tocreader:
        assert len(row) == 2, "each row must contain 2 entries"
        oldmeta[row[0]] = row[1]
print "----------------------------------------"
print "\nnew metadata:"
for k,v in oldmeta.items():
    print k, ":",v
doc.set_metadata(oldmeta)
doc.saveIncr()
 Română