Otwarty interfejs API OCR w języku Python umożliwiający przeszukiwanie obrazów PDF
Potężny darmowy interfejs API OCR w języku Python automatyzujący proces OCR i ułatwiający konwersję zeskanowanych obrazów PDF na dokumenty z możliwością pełnego przeszukiwania.
Technologia optycznego rozpoznawania znaków (OCR) zrewolucjonizowała sposób, w jaki obsługujemy i przetwarzamy dokumenty, umożliwiając nam efektywne wydobywanie cennych informacji. Wśród wielu dostępnych narzędzi OCR OCRmyPDF wyróżnia się jako wszechstronna i wydajna biblioteka Pythona, która łączy w sobie łatwość użycia z wyjątkową dokładnością. OCRmyPDF to narzędzie wiersza poleceń typu open source i biblioteka Pythona zaprojektowane specjalnie do dodawania OCR do istniejących plików PDF. Biblioteka analizuje każdą stronę pliku PDF, aby określić przestrzeń kolorów i rozdzielczość (DPI) potrzebne do przechwycenia wszystkich informacji na tej stronie bez utraty zawartości.
Biblioteka OCRmyPDF typu open source obsługuje szeroką gamę formatów wejściowych, w tym zeskanowane obrazy, istniejące pliki PDF, a nawet pliki DjVu. Działa w oparciu o zasadę „obraz plus tekst” i ma na celu uzyskanie wysokiej jakości wyników poprzez zachowanie struktury i formatowania oryginalnego dokumentu. Biblioteka wykorzystuje techniki optymalizacji plików PDF w celu zmniejszenia rozmiaru pliku przy zachowaniu najwyższej możliwej jakości. Stosując kompresję i próbkowanie w dół, zapewnia, że powstałe pliki PDF z obsługą OCR są zarówno wydajne w przechowywaniu, jak i szybkie wczytywaniu.
OCRmyPDF wykorzystuje solidny silnik OCR Tesseract, który obsługuje ponad 100 języków. Zaawansowane algorytmy zapewniają dokładne rozpoznawanie tekstu, nawet w przypadku obrazów o niskiej jakości lub zniekształconych. Biblioteka zapewnia obsługę łatwego generowania przeszukiwalnego pliku PDF/A ze zwykłego pliku PDF. Zapewnia także pewne opcje przetwarzania obrazu, takie jak prostowanie, co poprawia wygląd plików i jakość OCR. W przypadku ich użycia warstwa OCR jest zamiast tego przeszczepiana na przetworzony obraz. Wszechstronny zestaw funkcji, obejmujący obsługę wielu języków, optymalizację plików PDF, kontrolę warstw tekstu i automatyczne przetwarzanie, sprawia, że jest to cenne narzędzie dla firm, badaczy, archiwistów i każdego, kto ma do czynienia z dużą liczbą zeskanowanych dokumentów.
Pierwsze kroki z OCRmyPDF
Zalecany sposób instalacji OCRmyPDF polega na użyciu pip. Aby instalacja przebiegła bezproblemowo, użyj poniższego polecenia.
Zainstaluj OCRmyPDF przez pip
pip install ocrmypdf
Możesz także zainstalować go ręcznie; pobierz pliki najnowszej wersji bezpośrednio z repozytorium GitHub.
Optymalizacja plików PDF przy użyciu interfejsu API języka Python
Biblioteka OCRmyPDF typu open source zapewnia obsługę bardzo przydatnych funkcji do zarządzania rozmiarem i jakością dokumentów PDF w aplikacjach Python. Biblioteka wykorzystuje techniki optymalizacji plików PDF w celu zmniejszenia rozmiaru pliku przy zachowaniu najwyższej możliwej jakości. Stosując kompresję i próbkowanie w dół, zapewnia, że powstałe pliki PDF z obsługą OCR są zarówno wydajne w przechowywaniu, jak i szybkie wczytywaniu. OCRmyPDF udostępnia kilka opcji optymalizacji, które można dostosować do własnych wymagań. Niektóre często używane opcje obejmują usuwanie plików tymczasowych, zastosowanie kompresji JBIG2, pominięcie dodawania OCR, wyłączenie kompresji bezstratnej w celu maksymalnego zmniejszenia rozmiaru pliku i tak dalej.
Jak zoptymalizować pliki PDF przy użyciu API Pythona?
import subprocess
def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
try:
# OCRmyPDF command with optimization options
command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
# Execute the OCRmyPDF command
subprocess.run(command, check=True)
print("PDF optimization complete!")
except subprocess.CalledProcessError as e:
print(f"OCRmyPDF error: {e}")
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'
optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)
Integracja warstwy tekstowej PDF poprzez API Pythona
OCRmyPDF, biblioteka typu open source, zapewnia zaawansowane rozwiązanie do integracji warstw tekstowych z plikami PDF, zwiększając dostępność dokumentów i możliwości wyszukiwania. Biblioteka dodaje warstwę tekstową zawierającą tekst wygenerowany przez OCR bezpośrednio do dokumentu PDF, zapewniając zachowanie oryginalnego układu. Ta funkcja umożliwia wyszukiwanie pełnotekstowe, wklejanie i wyodrębnianie tekstu. Podczas pracy z dokumentami PDF zintegrowanie warstwy tekstowej z plikiem jest bardzo korzystne. Warstwa tekstowa zawiera rozpoznany tekst wygenerowany przez OCR, dzięki czemu plik PDF można przeszukiwać i umożliwia łatwe kopiowanie i wyodrębnianie tekstu. Ta integracja zachowuje oryginalny układ dokumentu, umożliwiając jednocześnie operacje tekstowe, zwiększając użyteczność i wydajność dokumentu.