Otwarty interfejs API OCR w języku Python umożliwiający przeszukiwanie obrazów PDF

Potężny darmowy interfejs API OCR w języku Python automatyzujący proces OCR i ułatwiający konwersję zeskanowanych obrazów PDF na dokumenty z możliwością pełnego przeszukiwania.

Technologia optycznego rozpoznawania znaków (OCR) zrewolucjonizowała sposób, w jaki obsługujemy i przetwarzamy dokumenty, umożliwiając nam efektywne wydobywanie cennych informacji. Wśród wielu dostępnych narzędzi OCR OCRmyPDF wyróżnia się jako wszechstronna i wydajna biblioteka Pythona, która łączy w sobie łatwość użycia z wyjątkową dokładnością. OCRmyPDF to narzędzie wiersza poleceń typu open source i biblioteka Pythona zaprojektowane specjalnie do dodawania OCR do istniejących plików PDF. Biblioteka analizuje każdą stronę pliku PDF, aby określić przestrzeń kolorów i rozdzielczość (DPI) potrzebne do przechwycenia wszystkich informacji na tej stronie bez utraty zawartości.

Biblioteka OCRmyPDF typu open source obsługuje szeroką gamę formatów wejściowych, w tym zeskanowane obrazy, istniejące pliki PDF, a nawet pliki DjVu. Działa w oparciu o zasadę „obraz plus tekst” i ma na celu uzyskanie wysokiej jakości wyników poprzez zachowanie struktury i formatowania oryginalnego dokumentu. Biblioteka wykorzystuje techniki optymalizacji plików PDF w celu zmniejszenia rozmiaru pliku przy zachowaniu najwyższej możliwej jakości. Stosując kompresję i próbkowanie w dół, zapewnia, że powstałe pliki PDF z obsługą OCR są zarówno wydajne w przechowywaniu, jak i szybkie wczytywaniu.

OCRmyPDF wykorzystuje solidny silnik OCR Tesseract, który obsługuje ponad 100 języków. Zaawansowane algorytmy zapewniają dokładne rozpoznawanie tekstu, nawet w przypadku obrazów o niskiej jakości lub zniekształconych. Biblioteka zapewnia obsługę łatwego generowania przeszukiwalnego pliku PDF/A ze zwykłego pliku PDF. Zapewnia także pewne opcje przetwarzania obrazu, takie jak prostowanie, co poprawia wygląd plików i jakość OCR. W przypadku ich użycia warstwa OCR jest zamiast tego przeszczepiana na przetworzony obraz. Wszechstronny zestaw funkcji, obejmujący obsługę wielu języków, optymalizację plików PDF, kontrolę warstw tekstu i automatyczne przetwarzanie, sprawia, że jest to cenne narzędzie dla firm, badaczy, archiwistów i każdego, kto ma do czynienia z dużą liczbą zeskanowanych dokumentów.

W skrócie

Przegląd funkcji OCRmyPDF.

Przegląd funkcji

Wykonaj OCR
Dodaj możliwości OCR
Rozpoznaj tekst obrazu
Przekształcaj obrazy tekstu
Rozpoznany tekst czcionki
Wyszukaj plik PDF
Inne języki
Twórz aplikacje OCR
Zapisz w przeglądarce
Wyodrębnij tekst
Obsługa wielowątkowości

OCRmyPDF

OCRmyPDF obsługuje popularne formaty plików graficznych wymienione poniżej.

Czytelnik

PNG, JPEG, BMP, TIFF, TGA, DICOM

Pisarz

PNG, JPEG, BMP, TIFF

OCRmyPDF

Niezależność od platformy

OCRmyPDF może współpracować z Pythonem 2.7 i nowszymi.

Python 2.7 i nowsze wersje.

OCRmyPDF

Pierwsze kroki z OCRmyPDF

Zalecany sposób instalacji OCRmyPDF polega na użyciu pip. Aby instalacja przebiegła bezproblemowo, użyj poniższego polecenia.

Zainstaluj OCRmyPDF przez pip

 pip install ocrmypdf

Możesz także zainstalować go ręcznie; pobierz pliki najnowszej wersji bezpośrednio z repozytorium GitHub.

Optymalizacja plików PDF przy użyciu interfejsu API języka Python

Biblioteka OCRmyPDF typu open source zapewnia obsługę bardzo przydatnych funkcji do zarządzania rozmiarem i jakością dokumentów PDF w aplikacjach Python. Biblioteka wykorzystuje techniki optymalizacji plików PDF w celu zmniejszenia rozmiaru pliku przy zachowaniu najwyższej możliwej jakości. Stosując kompresję i próbkowanie w dół, zapewnia, że powstałe pliki PDF z obsługą OCR są zarówno wydajne w przechowywaniu, jak i szybkie wczytywaniu. OCRmyPDF udostępnia kilka opcji optymalizacji, które można dostosować do własnych wymagań. Niektóre często używane opcje obejmują usuwanie plików tymczasowych, zastosowanie kompresji JBIG2, pominięcie dodawania OCR, wyłączenie kompresji bezstratnej w celu maksymalnego zmniejszenia rozmiaru pliku i tak dalej.

Jak zoptymalizować pliki PDF przy użyciu API Pythona?

import subprocess

def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
    try:
        # OCRmyPDF command with optimization options
        command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
        
        # Execute the OCRmyPDF command
        subprocess.run(command, check=True)
        
        print("PDF optimization complete!")
    except subprocess.CalledProcessError as e:
        print(f"OCRmyPDF error: {e}")
        
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'

optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)

Integracja warstwy tekstowej PDF poprzez API Pythona

OCRmyPDF, biblioteka typu open source, zapewnia zaawansowane rozwiązanie do integracji warstw tekstowych z plikami PDF, zwiększając dostępność dokumentów i możliwości wyszukiwania. Biblioteka dodaje warstwę tekstową zawierającą tekst wygenerowany przez OCR bezpośrednio do dokumentu PDF, zapewniając zachowanie oryginalnego układu. Ta funkcja umożliwia wyszukiwanie pełnotekstowe, wklejanie i wyodrębnianie tekstu. Podczas pracy z dokumentami PDF zintegrowanie warstwy tekstowej z plikiem jest bardzo korzystne. Warstwa tekstowa zawiera rozpoznany tekst wygenerowany przez OCR, dzięki czemu plik PDF można przeszukiwać i umożliwia łatwe kopiowanie i wyodrębnianie tekstu. Ta integracja zachowuje oryginalny układ dokumentu, umożliwiając jednocześnie operacje tekstowe, zwiększając użyteczność i wydajność dokumentu.