Extraiga información de archivos PDF a través de la biblioteca gratuita de Python
API gratuita de Python que permite a los desarrolladores extraer información de documentos PDF y convertir PDF a otros formatos y realiza análisis de diseño automático.
PDFMiner es una biblioteca Python de código abierto muy fácil de usar para procesar archivos PDF sin ninguna otra dependencia. PDFMine.six bifurcación mantenida por la comunidad de la biblioteca PDFMiner original. La biblioteca ha proporcionado funciones muy potentes para extraer información de documentos PDF. Proporciona una utilidad de comando para no programadores y una interfaz API para programadores. Un poderoso convertidor de PDF también es parte de la biblioteca que ayuda a los usuarios a transformar archivos PDF en otros formatos de texto como HTML.
PDFMiner es una biblioteca de Python pura que puede extraer fácilmente todos los textos de un archivo PDF que se procesan mediante programación. La gran habilidad es que también extrae las ubicaciones correspondientes, los nombres y tamaños de fuente y la dirección de escritura (horizontal o vertical) para cada segmento de texto. Admite la especificación PDF-1.7 y brinda soporte para la extracción de documentos PDF protegidos con contraseña. La biblioteca ha incluido varias otras características importantes, como analizar, analizar y convertir documentos PDF, extraer contenido como HTML o hOCR, compatibilidad con scripts de escritura vertical, compatibilidad con cifrado RC4 y AES, extracción de tabla de contenido, extracción de contenido etiquetado, diseño automático análisis y así sucesivamente.
Primeros pasos con PDFMiner
PDFMiner requiere Python 3.6 y superior. Puede instalar PDFMiner usando pip. Utilice el siguiente comando para instalarlo.
Instalar PDFMiner a través de pip
pip install pdfminer
También puedes descargar la biblioteca compartida compilada desde el repositorio de GitHub e instalarla.
Extraiga texto de un archivo PDF a través de Python
La biblioteca de código abierto Pdfminer.six brinda a los desarrolladores de software la capacidad de extraer texto de un archivo PDF con solo un par de líneas de código Python. La biblioteca se enfoca en obtener y analizar datos de texto y luego extrae el texto de una página directamente desde el código fuente del PDF. La biblioteca también permite a los desarrolladores extraer imágenes (JPG, JBIG2, mapas de bits) de un archivo PDF. También es posible extraer el nombre de fuente o el tamaño de cada carácter individual. Los siguientes ejemplos muestran cómo extraer el texto de un archivo PDF e imprimirlo en la pantalla.
Abrir y manipular documentos PDF a través de Python
from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)
Convierta archivos PDF a hOCR a través de la API de Python
hOCR es un estándar abierto de representación de datos para texto formateado obtenido a partir del reconocimiento óptico de caracteres (OCR). Las bibliotecas gratuitas Pdfminer.six permiten a los desarrolladores de software convertir archivos PDF a formato hOCR con solo un par de líneas de código Python. La biblioteca es muy fácil de manejar y puede extraer la información de texto explícito de aquellos PDF que la tienen y la usa para generar una representación básica de hOCR.
Convertir archivo PDF a texto a través de Python
La biblioteca incluye un amplio conjunto de funciones y capacidades que le permiten ir más allá del procesamiento básico de PDF. La biblioteca de código abierto Pdfminer.six permite a los desarrolladores de Python convertir documentos PDF a texto con solo un par de comandos simples. Primero debe proporcionar la ruta a los archivos PDF, así como el archivo de texto. Si el documento está protegido con contraseña, también debe proporcionar su contraseña. El siguiente ejemplo de código se puede usar para lograr el objetivo, simplemente devolverá la cadena en un PDF, dado su nombre de archivo, puede guardarlo fácilmente en un archivo.
Convierta archivos PDF a formato de texto a través de la API de Python
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = open(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0
caching = True
pagenos=set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
fp.close()
device.close()
retstr.close()
return text