API за OCR на Python с отворен код, за да направите PDF файлове с изображения достъпни за търсене

Мощен безплатен API за OCR на Python за автоматизиране на OCR процеса и улеснява преобразуването на PDF файлове със сканирани изображения в документи с възможност за пълно търсене с лекота.

Технологията за оптично разпознаване на символи (OCR) революционизира начина, по който боравим и обработваме документи, позволявайки ни да извличаме ценна информация ефективно. Сред многото налични OCR инструменти, OCRmyPDF се откроява като гъвкава и мощна библиотека на Python, която съчетава лекота на използване с изключителна точност. OCRmyPDF е инструмент за команден ред с отворен код и библиотека на Python, създадени специално за добавяне на OCR към съществуващи PDF файлове. Библиотеката анализира всяка страница от PDF файл, за да определи цветовото пространство и разделителната способност (DPI), необходими за улавяне на цялата информация на тази страница без загуба на съдържание.

Библиотеката OCRmyPDF с отворен код поддържа широк набор от входни формати, включително сканирани изображения, съществуващи PDF файлове и дори DjVu файлове. Той работи въз основа на предпоставката „изображение плюс текст“ и има за цел да произведе висококачествен резултат чрез запазване на структурата и форматирането на оригиналния документ. Библиотеката използва техники за оптимизиране на PDF, за да намали размера на файла, като същевременно поддържа възможно най-високо качество. Чрез прилагане на компресия и намаляване на семплирането, той гарантира, че получените PDF файлове с активиран OCR са ефективни за съхранение и бързи за зареждане.

OCRmyPDF използва стабилния Tesseract OCR механизъм, който поддържа над 100 езика. Неговите усъвършенствани алгоритми гарантират точно разпознаване на текст, дори от изображения с ниско качество или изкривени изображения. Библиотеката е предоставила поддръжка за лесно генериране на PDF/A файл с възможност за търсене от обикновен PDF файл. Освен това предоставя някои опции за обработка на изображения, като изкривяване, което подобрява външния вид на файловете и качеството на OCR. Когато се използват, OCR слоят вместо това се присажда върху обработеното изображение. Неговият изчерпателен набор от функции, включително поддръжка за множество езици, PDF оптимизация, контрол на текстовия слой и автоматизирана обработка, го прави ценен инструмент за фирми, изследователи, архивисти и всеки, който се занимава с големи обеми сканирани документи.

С един поглед

Общ преглед на функциите на OCRmyPDF.

Преглед на характеристиките

Извършване на OCR
Добавяне на възможности за OCR
Разпознаване на текст на изображение
Преобразувайте изображения на текст
Текст на разпознат шрифт
Търсене в PDF
Други езици
Създаване на OCR приложения
Запазване в браузър
Извличане на текст
Поддръжка на много нишки

OCRmyPDF

OCRmyPDF поддържа популярни файлови формати с изображения, изброени по-долу.

Читател

PNG, JPEG, BMP, TIFF, TGA, DICOM

Писател

PNG, JPEG, BMP, TIFF

OCRmyPDF

Независимост на платформата

OCRmyPDF може да работи с Python 2.7 и по-нова версия.

Python 2.7 и по-нова версия.

OCRmyPDF

Първи стъпки с OCRmyPDF

Препоръчителният начин за инсталиране на OCRmyPDF е използването на pip. Моля, използвайте следната команда за гладка инсталация.

Инсталирайте OCRmyPDF чрез pip

 pip install ocrmypdf

Можете също да го инсталирате ръчно; изтеглете файловете с най-новата версия директно от GitHub хранилище.

Оптимизиране на PDF с помощта на API на Python

Библиотеката OCRmyPDF с отворен код предоставя поддръжка на много полезни функции за управление на размера и качеството на PDF документите в приложенията на Python. Библиотеката използва техники за оптимизиране на PDF, за да намали размера на файла, като същевременно поддържа възможно най-високо качество. Чрез прилагане на компресия и намаляване на семплирането, той гарантира, че получените PDF файлове с активиран OCR са едновременно ефективни за съхранение и бързи за зареждане. OCRmyPDF предоставя няколко опции за оптимизация, които можете да персонализирате според вашите изисквания. Някои често използвани опции включват премахване на временни файлове, прилагане на JBIG2 компресия, пропускане на добавяне на OCR, деактивиране на компресията без загуби за максимално намаляване на размера на файла и т.н.

Как да оптимизирате PDF файлове с помощта на Python API?

import subprocess

def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
    try:
        # OCRmyPDF command with optimization options
        command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
        
        # Execute the OCRmyPDF command
        subprocess.run(command, check=True)
        
        print("PDF optimization complete!")
    except subprocess.CalledProcessError as e:
        print(f"OCRmyPDF error: {e}")
        
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'

optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)

Интегриране на PDF текстов слой чрез API на Python

OCRmyPDF, библиотека с отворен код, предоставя мощно решение за интегриране на текстови слоеве в PDF файлове, подобрявайки достъпността на документа и възможността за търсене. Библиотеката добавя текстов слой, съдържащ текст, генериран от OCR, директно върху PDF документа, като гарантира запазването на оригиналното оформление. Тази функция позволява търсене в пълен текст, копиране и поставяне и извличане на текст. Когато работите с PDF документи, наличието на текстов слой, интегриран във файла, е много полезно. Текстовият слой съдържа разпознатия текст, генериран от OCR, което прави PDF файла достъпен за търсене и позволява лесно копиране и извличане на текст. Тази интеграция запазва оригиналното оформление на документа, като същевременно позволява базирани на текст операции, подобрявайки използваемостта и ефективността на документа.