Gengiv PDF-filer, udpak tekst og billeder via gratis Python-bibliotek

Gratis Python API gør det muligt at redigere og gengive PDF-filer; udtræk tekst og billeder, rediger PDF-sider, flet/opdel og konverter PDF-filer med lethed.

PyMuPDF er en letvægts open source Python API, der tilføjer Python-bindinger og abstraktioner til MuPDF. API'en er lille i størrelse, men alligevel meget hurtig og understøtter en række populære dokumentformater, herunder PDF, XPS, OpenXPS, CBZ, EPUB og FB2 (eBooks) formater samt omkring 10 populære billedformater kan også åbnes, og behandles som dokumenter. PyMuPD er meget pålidelig og er kendt for sin bedste gengivelsesevne. Da biblioteket er meget let, gør det det til et godt valg til platforme, hvor ressourcer normalt er begrænsede, som smartphones.

Der er adskillige grundlæggende og avancerede funktioner, der understøttes af PyMuPDF API til PDF-dokumentgengivelse og konverteringer, såsom konvertering af PDF til PNG, adgang til og visning af metadata, arbejde med konturer, gengivelse af en side til et raster- eller vektorbillede (SVG), PDF-tekst Søgesupport, udtræk tekst fra PDF-side, udtræk billeder fra PDF, visning af billedet i GUI'er, ændring af PDF-side, oprettelse af nye PDF-sider, sletning af uønskede PDF-sider, Integrering af data og så videre. PyMuPDF har inkluderet understøttelse af adskillige platforme, såsom Mac, Linux og Windows.

Ved første øjekast

En oversigt over PyMuPDF-funktioner.

Oversigt over funktioner

Gengiv PDF
Uddrag PDF-tekst
Uddrag billeder
Opdel PDF'er
Flet PDF-filer
Konverter til HTML
Konverter til XML
Gengiv PDF-sider
Roter PDF-filer
Indlejring af skrifttyper
Krypter PDF
Indlejring af billeder
Metadata
Dekrypter PDF

PyMuPDF

PyMuPDF understøtter PDF-filformat såvel som industristandardformater til eksport.

Læser

Forfatter

TXT, HTML

PyMuPDF

Platformuafhængighed

PyMuPDF er testet med Python 3.7 og nyere.

Python 3.7 og nyere

PyMuPDF

Kom godt i gang med PyMuPDF

PyMuPDF kan installeres ved hjælp af pip, følgende kommandoer installeres fra et Python-hjul, hvis et er tilgængeligt til din platform.

Installer PyMuPDF via pip

 python -m pip install --upgrade pip
python -m pip install --upgrade pymupdf

Klon PyMuPDF via git Repository

 git clone https://github.com/pymupdf/PyMuPDF.git

Det er også muligt at installere det manuelt; download de seneste udgivelsesfiler direkte fra GitHub-lageret.

Søgning efter tekst i PDF-filer via Python

PDF har været et af verdens foretrukne filformater til deling af dokumenter på tværs af internettet, fordi det bevarer al tekstformatering og grafik inde i det. Men det er ikke let at søge efter tekst i disse filer sammenlignet med andre dokumenter. Det gratis PyMuPDF-bibliotek giver softwareudviklere mulighed for at tilføje tekstsøgningsfunktioner i deres Python-applikationer. Det giver mulighed for at søge ud, hvor på siden en bestemt tekststreng findes.

Søg hvor på PDF-siden Tekststreng vises via Python

areas = page.search_for("mupdf")

Udpakning af PDF-tekst og billeder via Python API

Open source PyMuPDF-biblioteket har inkluderet flere vigtige funktioner til at arbejde med PDF-tekst og billeder. Biblioteket har leveret forskellige funktioner til at udtrække tekst samt billeder fra PDF-dokumenter. Som standard tillader den udtrækning af almindelig tekst med linjeskift. Ingen formatering, ingen tekstpositionsdetaljer, ingen billeder. Desuden understøtter det generering af en liste over tekstblokke, generering af en liste med ord, oprettelse af en fuld visuel version af siden inklusive billeder og mange flere.

Sådan udtrækkes tekst fra PDF via Python API

from operator import itemgetter
from itertools import groupby
import fitz
doc = fitz.open( 'mydocument.pdf' )
pages = [ doc[ i ] for i in range( doc.pageCount ) ]
for page in pages:
  text_words = page.getTextWords()
  # The words should be ordered by y1 and x0
  sorted_words = SortedCollection( key = itemgetter( 3, 0 ) )
  for word in text_words:
    sorted_words.insert( word )
  # At this point you already have an ordered list. If you need to 
  # group the content by lines, use groupby with y1 as a key
  lines = groupby( sorted_words, key = itemgetter( 3 ) )

Deltag og opdel PDF-dokumenter i Python APP'er

Kombination af forskellige PDF-filer er en meget nyttig funktion, der giver brugerne mulighed for at have én PDF i stedet for at have et dusin separate PDF-filer. Det gratis og open source cross-platform PyMuPDF-bibliotek giver softwareprogrammører mulighed for nemt at flette forskellige filer eller kopiere sider mellem forskellige PDF-dokumenter. Det giver også brugerne mulighed for at opdele store PDF-dokumenter i mindre filer med blot et par linjer Python-kode. Det er også muligt at vælge nogle bestemte sider i et PDF-dokument og oprette et nyt dokument ud af det.

Opretter nyt dokument fra første og sidste 10 sider

doc2 = fitz.open()                 # new empty PDF
doc2.insert_pdf(doc1, to_page = 9)  # first 10 pages
doc2.insert_pdf(doc1, from_page = len(doc1) - 10) # last 10 pages
doc2.save("first-and-last-10.pdf")

Læs og eksporter PDF-metadata til CSV via Python

Open source PyMuPDF-biblioteket har leveret komplet funktionalitet til at få adgang til og læse metadata af PDF-filer uden nogen ekstern afhængighed. Det understøtter forskellige typer metadatanøgler såsom oprettelsesdato, forfatter, titel, skaberapplikation, ethvert emne, krypteringsmetode, filformat og så videre. Det er også muligt at eksportere metadata til CSV-format.

Eksporter PDF-metadata til CSV via Python API

import csv
import fitz
import argparse
parser = argparse.ArgumentParser(description="Enter CSV delimiter [;], CSV filename and documment filename")
parser.add_argument('-d', help='CSV delimiter [;]', default = ';')
parser.add_argument('-x', help='delete XML info [n]', default = 'n')
parser.add_argument('-csv', help='CSV filename')
parser.add_argument('-pdf', help='PDF filename')
args = parser.parse_args()
delim = args.d               # requested CSV delimiter character
assert args.csv, "missing CSV filename"
assert args.pdf, "missing PDF filename"
print "delimiter", args.d
print "xml delete", args.x
print "csv file", args.csv
print "pdf file", args.pdf
print "----------------------------------------"
doc = fitz.open(args.pdf)
oldmeta = doc.metadata
print "old metadata:"
for k,v in oldmeta.items():
    print k, ":",v
with open(args.csv) as tocfile:
    tocreader = csv.reader(tocfile, delimiter = delim)
    for row in tocreader:
        assert len(row) == 2, "each row must contain 2 entries"
        oldmeta[row[0]] = row[1]
print "----------------------------------------"
print "\nnew metadata:"
for k,v in oldmeta.items():
    print k, ":",v
doc.set_metadata(oldmeta)
doc.saveIncr()