Python OCR API منبع باز برای جستجو در فایل های PDF تصویر
یک API رایگان Python OCR برای خودکار کردن فرآیند OCR و تسهیل تبدیل فایلهای PDF تصویر اسکن شده به اسناد کاملاً قابل جستجو با سهولت.
فناوری تشخیص کاراکتر نوری (OCR) انقلابی در نحوه مدیریت و پردازش اسناد ایجاد کرده است و به ما امکان می دهد اطلاعات ارزشمند را به طور موثر استخراج کنیم. در میان بسیاری از ابزارهای OCR موجود، OCRmyPDF به عنوان یک کتابخانه همه کاره و قدرتمند پایتون متمایز است که سهولت استفاده را با دقت استثنایی ترکیب می کند. OCRmyPDF یک ابزار خط فرمان منبع باز و کتابخانه پایتون است که به طور خاص برای افزودن OCR به فایل های PDF موجود طراحی شده است. این کتابخانه هر صفحه از یک فایل PDF را تجزیه و تحلیل می کند تا فضای رنگ و وضوح (DPI) مورد نیاز برای گرفتن تمام اطلاعات آن صفحه بدون از دست دادن محتوا را تعیین کند.
کتابخانه منبع باز OCRmyPDF از طیف گسترده ای از فرمت های ورودی، از جمله تصاویر اسکن شده، PDF های موجود، و حتی فایل های DjVu پشتیبانی می کند. این برنامه بر اساس فرض "تصویر به اضافه متن" عمل می کند و هدف آن تولید خروجی با کیفیت بالا با حفظ ساختار و قالب بندی سند اصلی است. این کتابخانه از تکنیک های بهینه سازی PDF برای کاهش حجم فایل و حفظ بالاترین کیفیت ممکن استفاده می کند. با اعمال فشردهسازی و نمونهبرداری پایین، تضمین میکند که فایلهای PDF با قابلیت OCR بهدستآمده هم برای ذخیره کارآمد هستند و هم سریع بارگذاری میشوند.
OCRmyPDF از موتور قوی Tesseract OCR استفاده می کند که بیش از 100 زبان را پشتیبانی می کند. الگوریتم های پیشرفته آن تشخیص دقیق متن را حتی از تصاویر با کیفیت پایین یا تحریف شده تضمین می کند. این کتابخانه برای تولید یک فایل PDF/A قابل جستجو از یک PDF معمولی به راحتی پشتیبانی کرده است. همچنین برخی از گزینه های پردازش تصویر مانند deskew را ارائه می دهد که ظاهر فایل ها و کیفیت OCR را بهبود می بخشد. هنگامی که از اینها استفاده می شود، لایه OCR به جای آن بر روی تصویر پردازش شده پیوند زده می شود. مجموعه ویژگی های جامع آن، از جمله پشتیبانی از چندین زبان، بهینه سازی PDF، کنترل لایه متن، و پردازش خودکار، آن را به ابزاری ارزشمند برای مشاغل، محققان، بایگانی ها و هر کسی که با حجم زیادی از اسناد اسکن شده سر و کار دارند، تبدیل می کند.
شروع به کار با OCRmyPDF
روش توصیه شده برای نصب OCRmyPDF استفاده از pip است. لطفا از دستور زیر برای نصب راحت استفاده کنید.
OCRmyPDF را از طریق پیپ
نصب کنید pip install ocrmypdf
همچنین می توانید آن را به صورت دستی نصب کنید. آخرین فایل های نسخه را مستقیماً از مخزن GitHub دانلود کنید.
بهینه سازی PDF با استفاده از Python API
کتابخانه منبع باز OCRmyPDF از ویژگی های بسیار مفیدی برای مدیریت اندازه و کیفیت اسناد PDF در برنامه های پایتون پشتیبانی می کند. این کتابخانه از تکنیک های بهینه سازی PDF برای کاهش حجم فایل و حفظ بالاترین کیفیت ممکن استفاده می کند. با اعمال فشردهسازی و نمونهبرداری پایین، تضمین میکند که فایلهای PDF با قابلیت OCR بهدستآمده هم برای ذخیره کارآمد و هم سریع بارگذاری میشوند. OCRmyPDF چندین گزینه بهینه سازی را ارائه می دهد که می توانید بر اساس نیازهای خود آنها را سفارشی کنید. برخی از گزینههای رایج شامل حذف فایلهای موقت، اعمال فشردهسازی JBIG2، پرش از افزودن OCR، غیرفعال کردن فشردهسازی بدون تلفات برای به حداکثر رساندن کاهش حجم فایل و غیره هستند.
چگونه با استفاده از Python API فایل های PDF را بهینه کنیم؟
import subprocess
def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
try:
# OCRmyPDF command with optimization options
command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
# Execute the OCRmyPDF command
subprocess.run(command, check=True)
print("PDF optimization complete!")
except subprocess.CalledProcessError as e:
print(f"OCRmyPDF error: {e}")
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'
optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)
ادغام لایه متن PDF از طریق Python API
OCRmyPDF، یک کتابخانه منبع باز، راه حلی قدرتمند برای ادغام لایه های متن در فایل های PDF، افزایش دسترسی به اسناد و قابلیت جستجو ارائه می دهد. این کتابخانه یک لایه متن حاوی متن تولید شده توسط OCR را مستقیماً به سند PDF اضافه می کند و از حفظ طرح اصلی اطمینان می دهد. این ویژگی امکان جستجوی متن کامل، کپی پیست و استخراج متن را می دهد. هنگام کار با اسناد PDF، داشتن یک لایه متن یکپارچه در فایل بسیار سودمند است. لایه متن حاوی متن شناخته شده تولید شده توسط OCR است که PDF را قابل جستجو می کند و امکان کپی و استخراج آسان متن را فراهم می کند. این ادغام طرحبندی سند اصلی را حفظ میکند و در عین حال عملیات مبتنی بر متن را فعال میکند و قابلیت استفاده و کارایی سند را افزایش میدهد.