API-интерфейс Python OCR с открытым исходным кодом, позволяющий сделать PDF-файлы с изображениями доступными для поискаs
Мощный бесплатный API-интерфейс оптического распознавания символов Python для автоматизации процесса оптического распознавания символов и облегчения преобразования PDF-файлов с отсканированными изображениями в документы с возможностью полного поиска.
Технология оптического распознавания символов (OCR) произвела революцию в том, как мы обрабатываем документы, позволяя нам эффективно извлекать ценную информацию. Среди множества доступных инструментов OCR OCRmyPDF выделяется как универсальная и мощная библиотека Python, сочетающая в себе простоту использования с исключительной точностью. OCRmyPDF — это инструмент командной строки с открытым исходным кодом и библиотека Python, разработанная специально для добавления OCR к существующим файлам PDF. Библиотека анализирует каждую страницу PDF-файла, чтобы определить цветовое пространство и разрешение (DPI), необходимые для захвата всей информации на этой странице без потери контента.
Библиотека OCRmyPDF с открытым исходным кодом поддерживает широкий спектр входных форматов, включая отсканированные изображения, существующие PDF-файлы и даже файлы DjVu. Он работает по принципу «изображение плюс текст» и направлен на получение высококачественного результата за счет сохранения структуры и форматирования исходного документа. Библиотека использует методы оптимизации PDF для уменьшения размера файла при сохранении максимально возможного качества. Применяя сжатие и понижающую дискретизацию, он гарантирует, что полученные PDF-файлы с поддержкой OCR будут эффективно храниться и быстро загружаться.
OCRmyPDF использует надежный механизм OCR Tesseract, который поддерживает более 100 языков. Его передовые алгоритмы обеспечивают точное распознавание текста даже на некачественных или искаженных изображениях. Библиотека обеспечивает поддержку простого создания файла PDF/A с возможностью поиска из обычного PDF-файла. Он также предоставляет некоторые параметры обработки изображений, например устранение перекоса, что улучшает внешний вид файлов и качество оптического распознавания символов. Когда они используются, вместо этого слой OCR прививается к обработанному изображению. Его обширный набор функций, включая поддержку нескольких языков, оптимизацию PDF, управление текстовыми слоями и автоматическую обработку, делает его ценным инструментом для предприятий, исследователей, архивистов и всех, кто имеет дело с большими объемами отсканированных документов.
Начало работы с OCRmyPDF
Рекомендуемый способ установки OCRmyPDF — использование pip. Пожалуйста, используйте следующую команду для плавной установки.
Установите OCRmyPDF с помощью pip
pip install ocrmypdf
Вы также можете установить его вручную; загрузите файлы последней версии непосредственно из репозитория GitHub».
Оптимизация PDF с использованием Python API
Библиотека OCRmyPDF с открытым исходным кодом обеспечивает поддержку очень полезных функций для управления размером и качеством PDF-документов внутри приложений Python. Библиотека использует методы оптимизации PDF для уменьшения размера файла при сохранении максимально возможного качества. Применяя сжатие и понижающую дискретизацию, он гарантирует, что полученные PDF-файлы с поддержкой OCR будут эффективно храниться и быстро загружаться. OCRmyPDF предоставляет несколько вариантов оптимизации, которые вы можете настроить в соответствии со своими требованиями. Некоторые часто используемые параметры включают удаление временных файлов, применение сжатия JBIG2, пропуск добавления OCR, отключение сжатия без потерь для максимального уменьшения размера файла и т. д.
Как оптимизировать PDF-файлы с помощью Python API?
import subprocess
def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
try:
# OCRmyPDF command with optimization options
command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
# Execute the OCRmyPDF command
subprocess.run(command, check=True)
print("PDF optimization complete!")
except subprocess.CalledProcessError as e:
print(f"OCRmyPDF error: {e}")
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'
optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)
Интеграция текстового слоя PDF через Python API
OCRmyPDF, библиотека с открытым исходным кодом, предоставляет мощное решение для интеграции текстовых слоев в файлы PDF, улучшая доступность документов и возможности поиска. Библиотека добавляет текстовый слой, содержащий текст, сгенерированный с помощью OCR, непосредственно в документ PDF, обеспечивая сохранение исходного макета. Эта функция обеспечивает полнотекстовый поиск, копирование и извлечение текста. При работе с PDF-документами очень выгодно иметь текстовый слой, интегрированный в файл. Текстовый слой содержит распознанный текст, созданный с помощью OCR, что делает PDF-файл доступным для поиска и позволяет легко копировать и извлекать текст. Эта интеграция сохраняет исходный макет документа, одновременно позволяя выполнять текстовые операции, повышая удобство и эффективность использования документа.