Gender PDF Arquivos, Extrair Texto e Imagens via Free Python Library

Free Python API permite editar e renderizar PDF arquivos; extrair texto e imagens, editar PDF páginas, mesclar/split & converter PDFs com.

PyMuPDF é uma fonte aberta leve Python API que adiciona fendas Python e abstração ao PDF. O API é, mas ainda muito rápido e vários de documentos populares, incluindo PDF, XPS, OpenXPS, CB, PUB e FB2 (eBooks), bem como cerca de 10 de imagem populares podem ser abertos também. O PyMuPD é muito e é conhecido por sua de renderização superior. Como a biblioteca é muito leve o peso torna uma ótima para plataformas onde os recursos são limitados, como smartphones.

Existem vários recursos básicos e avançados suportados pela API PyMuPDF para renderização e conversões de documentos PDF, como converter PDF para PNG, acessar e visualizar metadados, trabalhar com contornos, renderizar uma página em uma imagem raster ou vetorial (SVG), texto PDF Suporte de pesquisa, extração de texto de página PDF, extração de imagens de PDF, exibição de imagem em GUIs, modificação de página PDF, criação de novas páginas PDF, exclusão de páginas PDF indesejadas, incorporação de dados e assim por diante. O PyMuPDF incluiu suporte para várias plataformas, como Mac, Linux e Windows.

Num relance

Uma visão geral das funcionalidades do PyMuPDF.

Visão geral dos recursos

Renderizar PDF
Extrair PDF texto
Extrair imagens
PDFs divididos
Mesclar PDFs
Converter para HTML
Converter para ML
G PDF páginas
Roda PDFs
Incorporação de fontes
Criptografar PDF
Incorporando imagens
Metadados
Descriptografar PDF

PyMuPDF

YouPDF PDF formato de arquivo, bem como padrão da indústria para.

Leitor

Escritor

TXT, HTML

PyMuPDF

Independência da plataforma

PyMuPDF é testado com Python 3.7 e superior.

Python 3.7 & superior

PyMuPDF

Começando com PyMuPDF

PyMuPDF pode ser usando pip, os seguintes comandos serão instalados a partir de uma roda Python se estiver disponível para sua plataforma.

Instalar PyMuPDF via pip

 python -m pip install --upgrade pip
python -m pip install --upgrade pymupdf

PyMuPDF clone via git Repository

 git clone https://github.com/pymupdf/PyMuPDF.git

Também é possível instalá-lo manualmente; baixe os arquivos de lançamento mais recentes diretamente do repositório GitHub.

Procurando texto em PDF arquivos via Python

PDF tem sido um dos de arquivo favoritos do mundo para compartilhar documentos através da internet porque mantém todas as formatação de texto e dentro dele. Mas não é fácil texto dentro arquivos em comparação com outros documentos. A biblioteca gratuita PyMuPDF permite que os desenvolvedores de software adicionem recursos de busca de texto dentro de suas aplicações Python. Ele permite pesquisar onde na página uma determinada string de texto.

Pesquisar Onde no PDF Page Text String Appears via Python

areas = page.search_for("mupdf")

Extrair PDF Texto e Imagens via Python API

A biblioteca open source YouPDF vários recursos importantes para com PDF texto e imagens. A biblioteca forneceu várias para extrair texto, bem como imagens de PDF documentos. Por padrão, permite a extração de texto simples com quebra de linha. Sem formatação, sem detalhes de posição de texto, sem imagens. Além disso, ele uma lista de blocos de texto, gerando uma lista de palavras, criando uma versão visual completa da página, incluindo imagens e muito mais.

Como extrair texto de PDF via Python API

from operator import itemgetter
from itertools import groupby
import fitz
doc = fitz.open( 'mydocument.pdf' )
pages = [ doc[ i ] for i in range( doc.pageCount ) ]
for page in pages:
  text_words = page.getTextWords()
  # The words should be ordered by y1 and x0
  sorted_words = SortedCollection( key = itemgetter( 3, 0 ) )
  for word in text_words:
    sorted_words.insert( word )
  # At this point you already have an ordered list. If you need to 
  # group the content by lines, use groupby with y1 as a key
  lines = groupby( sorted_words, key = itemgetter( 3 ) )

Junte-se e divida PDF documentos em Python As

Combinar diferentes PDF arquivos é uma muito que dá aos usuários a de ter um PDF em vez de ter uma de PDFs. A biblioteca free and open-source cross-platform YouPDF dá aos programadores o poder de fundir diferentes arquivos ou páginas entre diferentes PDF documentos com. Ele também dá aos usuários o poder de dividir PDF documentos grandes em arquivos menores com apenas algumas de código Python. é possível algumas páginas de um documento PDF e um novo documento fora dele.

Cria novo documento de primeira e última 10 páginas

doc2 = fitz.open()                 # new empty PDF
doc2.insert_pdf(doc1, to_page = 9)  # first 10 pages
doc2.insert_pdf(doc1, from_page = len(doc1) - 10) # last 10 pages
doc2.save("first-and-last-10.pdf")

Ler & Exportar PDF Metadata para CSV via Python

A biblioteca open source YouPDF forneceu completa para e ler metadados de PDF arquivos sem qualquer dependência externa. Ele vários tipos de chaves de metadados, como data para criação, autor, título, de criador, qualquer assunto, método de criptografia, formato de arquivo, e assim por diante. é possível exportar metadados para CSV formato.

Exportar PDF Metadata para CSV via Python API

import csv
import fitz
import argparse
parser = argparse.ArgumentParser(description="Enter CSV delimiter [;], CSV filename and documment filename")
parser.add_argument('-d', help='CSV delimiter [;]', default = ';')
parser.add_argument('-x', help='delete XML info [n]', default = 'n')
parser.add_argument('-csv', help='CSV filename')
parser.add_argument('-pdf', help='PDF filename')
args = parser.parse_args()
delim = args.d               # requested CSV delimiter character
assert args.csv, "missing CSV filename"
assert args.pdf, "missing PDF filename"
print "delimiter", args.d
print "xml delete", args.x
print "csv file", args.csv
print "pdf file", args.pdf
print "----------------------------------------"
doc = fitz.open(args.pdf)
oldmeta = doc.metadata
print "old metadata:"
for k,v in oldmeta.items():
    print k, ":",v
with open(args.csv) as tocfile:
    tocreader = csv.reader(tocfile, delimiter = delim)
    for row in tocreader:
        assert len(row) == 2, "each row must contain 2 entries"
        oldmeta[row[0]] = row[1]
print "----------------------------------------"
print "\nnew metadata:"
for k,v in oldmeta.items():
    print k, ":",v
doc.set_metadata(oldmeta)
doc.saveIncr()