Python OCR API منبع باز برای جستجو در فایل های PDF تصویر

یک API رایگان Python OCR برای خودکار کردن فرآیند OCR و تسهیل تبدیل فایل‌های PDF تصویر اسکن شده به اسناد کاملاً قابل جستجو با سهولت.

فناوری تشخیص کاراکتر نوری (OCR) انقلابی در نحوه مدیریت و پردازش اسناد ایجاد کرده است و به ما امکان می دهد اطلاعات ارزشمند را به طور موثر استخراج کنیم. در میان بسیاری از ابزارهای OCR موجود، OCRmyPDF به عنوان یک کتابخانه همه کاره و قدرتمند پایتون متمایز است که سهولت استفاده را با دقت استثنایی ترکیب می کند. OCRmyPDF یک ابزار خط فرمان منبع باز و کتابخانه پایتون است که به طور خاص برای افزودن OCR به فایل های PDF موجود طراحی شده است. این کتابخانه هر صفحه از یک فایل PDF را تجزیه و تحلیل می کند تا فضای رنگ و وضوح (DPI) مورد نیاز برای گرفتن تمام اطلاعات آن صفحه بدون از دست دادن محتوا را تعیین کند.

کتابخانه منبع باز OCRmyPDF از طیف گسترده ای از فرمت های ورودی، از جمله تصاویر اسکن شده، PDF های موجود، و حتی فایل های DjVu پشتیبانی می کند. این برنامه بر اساس فرض "تصویر به اضافه متن" عمل می کند و هدف آن تولید خروجی با کیفیت بالا با حفظ ساختار و قالب بندی سند اصلی است. این کتابخانه از تکنیک های بهینه سازی PDF برای کاهش حجم فایل و حفظ بالاترین کیفیت ممکن استفاده می کند. با اعمال فشرده‌سازی و نمونه‌برداری پایین، تضمین می‌کند که فایل‌های PDF با قابلیت OCR به‌دست‌آمده هم برای ذخیره کارآمد هستند و هم سریع بارگذاری می‌شوند.

OCRmyPDF از موتور قوی Tesseract OCR استفاده می کند که بیش از 100 زبان را پشتیبانی می کند. الگوریتم های پیشرفته آن تشخیص دقیق متن را حتی از تصاویر با کیفیت پایین یا تحریف شده تضمین می کند. این کتابخانه برای تولید یک فایل PDF/A قابل جستجو از یک PDF معمولی به راحتی پشتیبانی کرده است. همچنین برخی از گزینه های پردازش تصویر مانند deskew را ارائه می دهد که ظاهر فایل ها و کیفیت OCR را بهبود می بخشد. هنگامی که از اینها استفاده می شود، لایه OCR به جای آن بر روی تصویر پردازش شده پیوند زده می شود. مجموعه ویژگی های جامع آن، از جمله پشتیبانی از چندین زبان، بهینه سازی PDF، کنترل لایه متن، و پردازش خودکار، آن را به ابزاری ارزشمند برای مشاغل، محققان، بایگانی ها و هر کسی که با حجم زیادی از اسناد اسکن شده سر و کار دارند، تبدیل می کند.

در یک نگاه

نمای کلی از ویژگی های OCRmyPDF.

بررسی اجمالی ویژگی ها

OCR را انجام دهید
افزودن قابلیت های OCR
تشخیص متن تصویر
تصاویر متن را کانوت کنید
متن قلم شناسایی شده
جستجوی PDF
زبان های دیگر
برنامه های OCR ایجاد کنید
ذخیره در مرورگر
متن را استخراج کنید
پشتیبانی از چند رشته

OCRmyPDF

OCRmyPDF از فرمت‌های فایل تصویر محبوب فهرست‌شده در زیر پشتیبانی می‌کند.

خواننده

PNG, JPEG, BMP, TIFF, TGA, DICOM

نویسنده

PNG, JPEG, BMP, TIFF

OCRmyPDF

استقلال پلتفرم

OCRmyPDF می تواند با پایتون 2.7 و بالاتر کار کند.

Python 2.7 و بالاتر.

OCRmyPDF

شروع به کار با OCRmyPDF

روش توصیه شده برای نصب OCRmyPDF استفاده از pip است. لطفا از دستور زیر برای نصب راحت استفاده کنید.

OCRmyPDF را از طریق پیپ

نصب کنید

 pip install ocrmypdf

همچنین می توانید آن را به صورت دستی نصب کنید. آخرین فایل های نسخه را مستقیماً از مخزن GitHub دانلود کنید.

بهینه سازی PDF با استفاده از Python API

کتابخانه منبع باز OCRmyPDF از ویژگی های بسیار مفیدی برای مدیریت اندازه و کیفیت اسناد PDF در برنامه های پایتون پشتیبانی می کند. این کتابخانه از تکنیک های بهینه سازی PDF برای کاهش حجم فایل و حفظ بالاترین کیفیت ممکن استفاده می کند. با اعمال فشرده‌سازی و نمونه‌برداری پایین، تضمین می‌کند که فایل‌های PDF با قابلیت OCR به‌دست‌آمده هم برای ذخیره کارآمد و هم سریع بارگذاری می‌شوند. OCRmyPDF چندین گزینه بهینه سازی را ارائه می دهد که می توانید بر اساس نیازهای خود آنها را سفارشی کنید. برخی از گزینه‌های رایج شامل حذف فایل‌های موقت، اعمال فشرده‌سازی JBIG2، پرش از افزودن OCR، غیرفعال کردن فشرده‌سازی بدون تلفات برای به حداکثر رساندن کاهش حجم فایل و غیره هستند.

چگونه با استفاده از Python API فایل های PDF را بهینه کنیم؟

import subprocess

def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
    try:
        # OCRmyPDF command with optimization options
        command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
        
        # Execute the OCRmyPDF command
        subprocess.run(command, check=True)
        
        print("PDF optimization complete!")
    except subprocess.CalledProcessError as e:
        print(f"OCRmyPDF error: {e}")
        
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'

optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)

ادغام لایه متن PDF از طریق Python API

OCRmyPDF، یک کتابخانه منبع باز، راه حلی قدرتمند برای ادغام لایه های متن در فایل های PDF، افزایش دسترسی به اسناد و قابلیت جستجو ارائه می دهد. این کتابخانه یک لایه متن حاوی متن تولید شده توسط OCR را مستقیماً به سند PDF اضافه می کند و از حفظ طرح اصلی اطمینان می دهد. این ویژگی امکان جستجوی متن کامل، کپی پیست و استخراج متن را می دهد. هنگام کار با اسناد PDF، داشتن یک لایه متن یکپارچه در فایل بسیار سودمند است. لایه متن حاوی متن شناخته شده تولید شده توسط OCR است که PDF را قابل جستجو می کند و امکان کپی و استخراج آسان متن را فراهم می کند. این ادغام طرح‌بندی سند اصلی را حفظ می‌کند و در عین حال عملیات مبتنی بر متن را فعال می‌کند و قابلیت استفاده و کارایی سند را افزایش می‌دهد.