Open Source Python OCR API untuk Menjadikan Imej PDF Boleh Dicari

API OCR Python Percuma yang Berkuasa untuk Mengautomasikan Proses OCR dan Memudahkan Penukaran PDF Imej yang Diimbas kepada Dokumen Boleh Dicari sepenuhnya dengan mudah.

Teknologi Pengecaman Aksara Optik (OCR) telah merevolusikan cara kami mengendalikan dan memproses dokumen, membolehkan kami mengekstrak maklumat berharga dengan cekap. Di antara banyak alat OCR yang tersedia, OCRmyPDF menonjol sebagai perpustakaan Python yang serba boleh dan berkuasa yang menggabungkan kemudahan penggunaan dengan ketepatan yang luar biasa. OCRmyPDF ialah alat baris arahan sumber terbuka dan perpustakaan Python yang direka khusus untuk menambah OCR pada fail PDF sedia ada. Pustaka menganalisis setiap halaman fail PDF untuk menentukan ruang warna dan resolusi (DPI) yang diperlukan untuk menangkap semua maklumat pada halaman tersebut tanpa kehilangan kandungan.

Pustaka OCRmyPDF sumber terbuka menyokong pelbagai format input, termasuk imej yang diimbas, PDF sedia ada dan juga fail DjVu. Ia beroperasi berdasarkan premis "imej tambah teks" dan bertujuan untuk menghasilkan output berkualiti tinggi dengan mengekalkan struktur dan pemformatan dokumen asal. Perpustakaan menggunakan teknik pengoptimuman PDF untuk mengurangkan saiz fail sambil mengekalkan kualiti setinggi mungkin. Dengan menggunakan pemampatan dan pensampelan bawah, ia memastikan bahawa fail PDF yang didayakan OCR yang dihasilkan adalah cekap untuk disimpan dan cepat dimuatkan.

OCRmyPDF menggunakan enjin Tesseract OCR yang teguh, yang menyokong lebih 100 bahasa. Algoritma canggihnya memastikan pengecaman teks yang tepat, walaupun daripada imej berkualiti rendah atau terherot. Perpustakaan telah menyediakan sokongan untuk menjana fail PDF/A yang boleh dicari daripada PDF biasa dengan mudah. Ia juga menyediakan beberapa pilihan pemprosesan imej, seperti deskew, yang menambah baik penampilan fail dan kualiti OCR. Apabila ini digunakan, lapisan OCR dicantumkan pada imej yang diproses sebaliknya. Set ciri komprehensifnya, termasuk sokongan untuk berbilang bahasa, pengoptimuman PDF, kawalan lapisan teks dan pemprosesan automatik, menjadikannya alat yang berharga untuk perniagaan, penyelidik, arkivis dan sesiapa sahaja yang berurusan dengan sejumlah besar dokumen yang diimbas.

Sekilas Pandang

Ikhtisar ciri OCRmyPDF.

Gambaran Keseluruhan Ciri

Lakukan OCR
Tambah Keupayaan OCR
Kecam teks Imej
Imej convet teks
Teks Font Dikenali
Cari PDF
Bahasa Lain
Buat apl OCR
Simpan ke penyemak imbas
Ekstrak Teks
Sokongan Berbilang Benang

OCRmyPDF

OCRmyPDF menyokong format fail imej popular yang disenaraikan di bawah.

Pembaca

PNG, JPEG, BMP, TIFF, TGA, DICOM

Penulis

PNG, JPEG, BMP, TIFF

OCRmyPDF

Kemerdekaan Platform

OCRmyPDF boleh berfungsi dengan Python 2.7 dan ke atas.

Python 2.7 & ke atas.

OCRmyPDF

Bermula dengan OCRmyPDF

Cara yang disyorkan untuk memasang OCRmyPDF adalah menggunakan pip. Sila gunakan arahan berikut untuk pemasangan yang lancar.

Pasang OCRmyPDF melalui pip

 pip install ocrmypdf

Anda juga boleh memasangnya secara manual; muat turun fail keluaran terkini terus daripada repositori GitHub.

Pengoptimuman PDF menggunakan API Python

Pustaka OCRmyPDF sumber terbuka telah menyediakan sokongan ciri yang sangat berguna untuk mengurus saiz dan kualiti dokumen PDF dalam aplikasi Python. Perpustakaan menggunakan teknik pengoptimuman PDF untuk mengurangkan saiz fail sambil mengekalkan kualiti setinggi mungkin. Dengan menggunakan pemampatan dan pensampelan bawah, ia memastikan bahawa fail PDF yang didayakan OCR yang dihasilkan adalah cekap untuk disimpan dan cepat dimuatkan. OCRmyPDF menyediakan beberapa pilihan pengoptimuman yang boleh anda sesuaikan berdasarkan keperluan anda. Beberapa pilihan yang biasa digunakan termasuk mengalih keluar fail sementara, menggunakan pemampatan JBIG2, melangkau menambah OCR, melumpuhkan pemampatan tanpa kehilangan untuk memaksimumkan pengurangan saiz fail dan sebagainya.

Bagaimana untuk Mengoptimumkan Fail PDF menggunakan API Python?

import subprocess

def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
    try:
        # OCRmyPDF command with optimization options
        command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
        
        # Execute the OCRmyPDF command
        subprocess.run(command, check=True)
        
        print("PDF optimization complete!")
    except subprocess.CalledProcessError as e:
        print(f"OCRmyPDF error: {e}")
        
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'

optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)

Penyepaduan Lapisan Teks PDF melalui API Python

OCRmyPDF, perpustakaan sumber terbuka, menyediakan penyelesaian yang berkuasa untuk menyepadukan lapisan teks ke dalam fail PDF, meningkatkan kebolehcapaian dokumen dan keupayaan carian. Pustaka menambah lapisan teks yang mengandungi teks yang dijana OCR terus ke dalam dokumen PDF, memastikan pengekalan reka letak asal. Ciri ini membolehkan carian teks penuh, salin-tampal dan pengekstrakan teks. Apabila bekerja dengan dokumen PDF, mempunyai lapisan teks yang disepadukan dalam fail adalah sangat berfaedah. Lapisan teks mengandungi teks yang dijana OCR yang diiktiraf, menjadikan PDF boleh dicari dan membolehkan penyalinan dan pengekstrakan teks dengan mudah. Penyepaduan ini mengekalkan reka letak dokumen asal sambil mendayakan operasi berasaskan teks, meningkatkan kebolehgunaan dan kecekapan dokumen.