開源 Python OCR API 使圖像 PDF 可搜尋
功能強大的免費 Python OCR API,可自動執行 OCR 流程並輕鬆將掃描影像 PDF 轉換為完全可搜尋的文件。
光學字元辨識 (OCR) 技術徹底改變了我們處理文件的方式,使我們能夠有效地提取有價值的資訊。在眾多可用的 OCR 工具中,OCRmyPDF 作為一個多功能且功能強大的 Python 庫脫穎而出,它結合了易用性和卓越的準確性。 OCRmyPDF 是一款開源命令列工具和 Python 庫,專為將 OCR 新增至現有 PDF 檔案而設計。該庫分析 PDF 文件的每個頁面,以確定捕獲該頁面上的所有資訊而不丟失內容所需的色彩空間和解析度 (DPI)。
開源 OCRmyPDF 庫支援多種輸入格式,包括掃描影像、現有 PDF,甚至 DjVu 檔案。它以“圖像加文字”為前提運行,旨在透過保留原始文件的結構和格式來產生高品質的輸出。該庫採用 PDF 優化技術來減小文件大小,同時保持盡可能高的品質。透過應用壓縮和下採樣,它可以確保生成的支援 OCR 的 PDF 文件能夠有效地儲存和快速加載。
OCRmyPDF 利用強大的 Tesseract OCR 引擎,支援 100 多種語言。其先進的演算法可確保準確識別文本,即使是低品質或扭曲的圖像。該程式庫支援輕鬆從常規 PDF 產生可搜尋的 PDF/A 檔案。它還提供了一些影像處理選項,例如糾偏,可以改善檔案的外觀和 OCR 的品質。當使用這些時,OCR 層會被移植到處理後的影像上。其全面的功能集,包括對多種語言的支援、PDF 優化、文字層控制和自動化處理,使其成為企業、研究人員、檔案管理員和處理大量掃描文件的任何人的寶貴工具。 >
OCRmyPDF 入門
安裝 OCRmyPDF 的建議方法是使用 pip。為了順利安裝,請使用以下命令。
使用 Python API 優化 PDF
開源 OCRmyPDF 庫提供了非常有用的功能來管理 Python 應用程式中 PDF 文件的大小和品質。該庫採用 PDF 優化技術來減小文件大小,同時保持盡可能高的品質。透過應用壓縮和下採樣,它可以確保生成的支援 OCR 的 PDF 文件既可以高效存儲又可以快速加載。 OCRmyPDF 提供了多種最佳化選項,您可以根據您的要求進行自訂。一些常用的選項包括刪除臨時檔案、套用 JBIG2 壓縮、跳過新增 OCR、停用無損壓縮以最大限度地減少檔案大小等。
如何使用Python API優化PDF檔?
import subprocess
def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
try:
# OCRmyPDF command with optimization options
command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
# Execute the OCRmyPDF command
subprocess.run(command, check=True)
print("PDF optimization complete!")
except subprocess.CalledProcessError as e:
print(f"OCRmyPDF error: {e}")
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'
optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)
透過 Python API 整合 PDF 文字層
OCRmyPDF 是一個開源庫,提供了強大的解決方案,可將文字圖層整合到 PDF 文件中,從而增強文件的可存取性和搜尋能力。 該庫將包含 OCR 生成文本的文本層直接添加到 PDF 文件上,確保保留原始佈局。此功能支援全文搜尋、複製貼上和文字擷取。處理 PDF 文件時,在文件中整合文字層非常有利。文本層包含已識別的 OCR 生成文本,使 PDF 可搜尋並輕鬆複製和提取文本。這種整合保留了原始文件佈局,同時支援基於文字的操作,從而增強了文件的可用性和效率。