1. Termékek
  2.   PDF
  3.   Python
  4.   PyMuPDF
 
  

Nem%PDFPDF%PDFfájl,%PDFkivonat%PDFszöveg%PDFés%PDFképek%PDFa%PDFszabad%PDFpython%PDFkönyvtáron%PDFkeresztül

Ingyenes Python API lehetővé teszi, hogy szerkeszteni és render PDF Files; kivonat szöveg & képek, szerkeszteni PDF oldal, egyesülés / split & átalakítani PDFs könnyedén.

A YouPDF egy könnyű nyílt forráskódú Python API, amely hozzáadja Python kötelező érvényű és elvont MuPDF. A API kicsi méretű, de mégis nagyon gyors, és számos népszerű dokumentumformátumot támogat, beleértve a PDF, XPS, OpenXPS, CB, PUB és FB2 (eBooks) formátumot, valamint mintegy 10 népszerű képformátumot is lehet megnyitni, és kezelni, mint a dokumentumok. A PyMuPD nagyon megbízható, és ismert, hogy a legjobban képes. Mivel a könyvtár nagyon könnyű súlyt tesz lehetővé olyan platformok számára, ahol az erőforrások általában korlátozottak, mint az okostelefonok.

Számos alapvető és fejlett funkciót támogat a YouPDF API a PDF dokumentum kiadása és konverziója, mint például az PDF-ös NG átalakítása, a metaadathoz való hozzáférés és megtekintés, a körvonalakon dolgozva, egy oldalt egy vastagságú vagy vektor (SVG) képre, PDF szöveg Keresési támogatás, kivonat szöveg PDF oldalról, kijelöli a képet az I-ből, módosítva az PDF oldalt, létrehozva az új PDF oldalt, törölve a nem kívánt PDF oldalakat, az Embed Data és így tovább. A YouPDF számos platformot támogatott, például Mac, Linux és Windows.

Previous Next

Kezdve a PyMuPDF-vel

A PyMuPDF pip segítségével telepíthető, a következő parancsokat egy Python kerékből telepítik, ha az egyik elérhető a platform számára.

Telepítse PyMuPDF Pip

 python -m pip install --upgrade pip
python -m pip install --upgrade pymupdf
 

Clone PyMuPDF a git Repository segítségével

 git clone https://github.com/pymupdf/PyMuPDF.git 

Lehetőség van manuális telepítésre is; töltse le a legújabb kiadású fájlokat közvetlenül a GitHub tárhelyről.

Keresés szöveg PDF Files keresztül Python

PDF volt a világ egyik kedvenc fájlformája a dokumentumok megosztásához az interneten, mert megtartja az összes szövegformázást és grafikát benne. De nem könnyű szöveget keresni ezeken a fájlokon belül más dokumentumokhoz képest. Az ingyenes YouPDF könyvtár lehetővé teszi a szoftverfejlesztők számára, hogy szöveges keresési képességeket biztosítsanak a Python alkalmazásaiban. Ez lehetővé teszi, hogy keresse meg, hol az oldalon egy bizonyos szöveges karakterlánc létezik.

Keressen hol a PDF oldalas szöveges furcsa megjelenéseket Pythononon keresztül

areas = page.search_for("mupdf") 

Kitermelés PDF szöveg és kép Python API

A nyílt forráskódú YouPDF könyvtár számos fontos funkciót tartalmazott a PDF szöveggel és képpel való együttműködéshez. A könyvtár különböző funkciókat biztosít a szöveg kivonására, valamint PDF dokumentumból származó képeket. Alapértelmezés szerint lehetővé teszi a sima szöveg kitermelését a vonaltörésekkel. Nincs formázás, nincs szöveges pozíció részletei, képek. Ezenkívül támogatja a szövegblokkok listájának létrehozását, a szavak listájának létrehozását, az oldal teljes vizuális változatát, beleértve minden képet és még sok mást.

Hogyan lehet kivonni a szöveget PDF-ből Python API-on keresztül

from operator import itemgetter
from itertools import groupby
import fitz
doc = fitz.open( 'mydocument.pdf' )
pages = [ doc[ i ] for i in range( doc.pageCount ) ]
for page in pages:
  text_words = page.getTextWords()
  # The words should be ordered by y1 and x0
  sorted_words = SortedCollection( key = itemgetter( 3, 0 ) )
  for word in text_words:
    sorted_words.insert( word )
  # At this point you already have an ordered list. If you need to 
  # group the content by lines, use groupby with y1 as a key
  lines = groupby( sorted_words, key = itemgetter( 3 ) )

Csatlakozzon és Split PDF dokumentumot a Python-ban

A különböző PDF fájlok kombinálása nagyon hasznos funkció, amely lehetővé teszi a felhasználók számára, hogy PDF-et kapjanak, nem pedig tucat különálló PDF-et kapjanak. A szabad és nyílt forráskódú cross-platform YouPDF könyvtár ad szoftverprogramozók a hatalom, hogy egyesítse a különböző fájlok vagy másolat oldalak között különböző PDF dokumentumok könnyedén. Azt is megadja a felhasználóknak, hogy a nagy PDF dokumentumot kisebb fájlokra bontsák, csak néhány sor Python kóddal. Lehetőség van egy PDF dokumentum egyes konkrét oldalainak kiválasztására és egy új dokumentum létrehozására is.

Új dokumentumot hoz létre az első és utolsó 10 oldalról

doc2 = fitz.open()                 # new empty PDF
doc2.insert_pdf(doc1, to_page = 9)  # first 10 pages
doc2.insert_pdf(doc1, from_page = len(doc1) - 10) # last 10 pages
doc2.save("first-and-last-10.pdf")

Read & Export PDF Metadata CSV Pythononon keresztül

A nyílt forráskódú YouPDF könyvtár teljes funkcionalitást biztosított a PDF fájlból álló metaadatokhoz külső függőségek nélkül. Támogatja a különböző típusú metaadat-kulcsokat, mint például a létrehozás, a szerző, a cím, a alkotó alkalmazás, bármilyen téma, titkosítási módszer, fájlformátum, és így tovább. Lehetőség van a metaadatot CSV formátumba exportálni.

 

Export PDF Metadata CSV keresztül Python API

import csv
import fitz
import argparse
parser = argparse.ArgumentParser(description="Enter CSV delimiter [;], CSV filename and documment filename")
parser.add_argument('-d', help='CSV delimiter [;]', default = ';')
parser.add_argument('-x', help='delete XML info [n]', default = 'n')
parser.add_argument('-csv', help='CSV filename')
parser.add_argument('-pdf', help='PDF filename')
args = parser.parse_args()
delim = args.d               # requested CSV delimiter character
assert args.csv, "missing CSV filename"
assert args.pdf, "missing PDF filename"
print "delimiter", args.d
print "xml delete", args.x
print "csv file", args.csv
print "pdf file", args.pdf
print "----------------------------------------"
doc = fitz.open(args.pdf)
oldmeta = doc.metadata
print "old metadata:"
for k,v in oldmeta.items():
    print k, ":",v
with open(args.csv) as tocfile:
    tocreader = csv.reader(tocfile, delimiter = delim)
    for row in tocreader:
        assert len(row) == 2, "each row must contain 2 entries"
        oldmeta[row[0]] = row[1]
print "----------------------------------------"
print "\nnew metadata:"
for k,v in oldmeta.items():
    print k, ":",v
doc.set_metadata(oldmeta)
doc.saveIncr()
 Magyar