1. Produkty
  2.   OCR
  3.   Python
  4.   OCRmyPDF
 
  

Otwarty interfejs API OCR w języku Python umożliwiający przeszukiwanie obrazów PDF

Potężny darmowy interfejs API OCR w języku Python automatyzujący proces OCR i ułatwiający konwersję zeskanowanych obrazów PDF na dokumenty z możliwością pełnego przeszukiwania.

Technologia optycznego rozpoznawania znaków (OCR) zrewolucjonizowała sposób, w jaki obsługujemy i przetwarzamy dokumenty, umożliwiając nam efektywne wydobywanie cennych informacji. Wśród wielu dostępnych narzędzi OCR OCRmyPDF wyróżnia się jako wszechstronna i wydajna biblioteka Pythona, która łączy w sobie łatwość użycia z wyjątkową dokładnością. OCRmyPDF to narzędzie wiersza poleceń typu open source i biblioteka Pythona zaprojektowane specjalnie do dodawania OCR do istniejących plików PDF. Biblioteka analizuje każdą stronę pliku PDF, aby określić przestrzeń kolorów i rozdzielczość (DPI) potrzebne do przechwycenia wszystkich informacji na tej stronie bez utraty zawartości.

Biblioteka OCRmyPDF typu open source obsługuje szeroką gamę formatów wejściowych, w tym zeskanowane obrazy, istniejące pliki PDF, a nawet pliki DjVu. Działa w oparciu o zasadę „obraz plus tekst” i ma na celu uzyskanie wysokiej jakości wyników poprzez zachowanie struktury i formatowania oryginalnego dokumentu. Biblioteka wykorzystuje techniki optymalizacji plików PDF w celu zmniejszenia rozmiaru pliku przy zachowaniu najwyższej możliwej jakości. Stosując kompresję i próbkowanie w dół, zapewnia, że ​​powstałe pliki PDF z obsługą OCR są zarówno wydajne w przechowywaniu, jak i szybkie wczytywaniu.

OCRmyPDF wykorzystuje solidny silnik OCR Tesseract, który obsługuje ponad 100 języków. Zaawansowane algorytmy zapewniają dokładne rozpoznawanie tekstu, nawet w przypadku obrazów o niskiej jakości lub zniekształconych. Biblioteka zapewnia obsługę łatwego generowania przeszukiwalnego pliku PDF/A ze zwykłego pliku PDF. Zapewnia także pewne opcje przetwarzania obrazu, takie jak prostowanie, co poprawia wygląd plików i jakość OCR. W przypadku ich użycia warstwa OCR jest zamiast tego przeszczepiana na przetworzony obraz. Wszechstronny zestaw funkcji, obejmujący obsługę wielu języków, optymalizację plików PDF, kontrolę warstw tekstu i automatyczne przetwarzanie, sprawia, że ​​jest to cenne narzędzie dla firm, badaczy, archiwistów i każdego, kto ma do czynienia z dużą liczbą zeskanowanych dokumentów.

Previous Next

Pierwsze kroki z OCRmyPDF

Zalecany sposób instalacji OCRmyPDF polega na użyciu pip. Aby instalacja przebiegła bezproblemowo, użyj poniższego polecenia.

Zainstaluj OCRmyPDF przez pip

 pip install ocrmypdf 

Możesz także zainstalować go ręcznie; pobierz pliki najnowszej wersji bezpośrednio z repozytorium GitHub.

Optymalizacja plików PDF przy użyciu interfejsu API języka Python

Biblioteka OCRmyPDF typu open source zapewnia obsługę bardzo przydatnych funkcji do zarządzania rozmiarem i jakością dokumentów PDF w aplikacjach Python. Biblioteka wykorzystuje techniki optymalizacji plików PDF w celu zmniejszenia rozmiaru pliku przy zachowaniu najwyższej możliwej jakości. Stosując kompresję i próbkowanie w dół, zapewnia, że ​​powstałe pliki PDF z obsługą OCR są zarówno wydajne w przechowywaniu, jak i szybkie wczytywaniu. OCRmyPDF udostępnia kilka opcji optymalizacji, które można dostosować do własnych wymagań. Niektóre często używane opcje obejmują usuwanie plików tymczasowych, zastosowanie kompresji JBIG2, pominięcie dodawania OCR, wyłączenie kompresji bezstratnej w celu maksymalnego zmniejszenia rozmiaru pliku i tak dalej.

Jak zoptymalizować pliki PDF przy użyciu API Pythona?

import subprocess

def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
    try:
        # OCRmyPDF command with optimization options
        command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
        
        # Execute the OCRmyPDF command
        subprocess.run(command, check=True)
        
        print("PDF optimization complete!")
    except subprocess.CalledProcessError as e:
        print(f"OCRmyPDF error: {e}")
        
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'

optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)

Integracja warstwy tekstowej PDF poprzez API Pythona

OCRmyPDF, biblioteka typu open source, zapewnia zaawansowane rozwiązanie do integracji warstw tekstowych z plikami PDF, zwiększając dostępność dokumentów i możliwości wyszukiwania. Biblioteka dodaje warstwę tekstową zawierającą tekst wygenerowany przez OCR bezpośrednio do dokumentu PDF, zapewniając zachowanie oryginalnego układu. Ta funkcja umożliwia wyszukiwanie pełnotekstowe, wklejanie i wyodrębnianie tekstu. Podczas pracy z dokumentami PDF zintegrowanie warstwy tekstowej z plikiem jest bardzo korzystne. Warstwa tekstowa zawiera rozpoznany tekst wygenerowany przez OCR, dzięki czemu plik PDF można przeszukiwać i umożliwia łatwe kopiowanie i wyodrębnianie tekstu. Ta integracja zachowuje oryginalny układ dokumentu, umożliwiając jednocześnie operacje tekstowe, zwiększając użyteczność i wydajność dokumentu.

 Polski