API OCR Python Sumber Terbuka untuk Membuat Gambar PDF Dapat Dicari

API OCR Python Gratis yang Kuat untuk Mengotomatiskan Proses OCR dan Memfasilitasi Konversi PDF Gambar yang Dipindai menjadi Dokumen yang Dapat Dicari sepenuhnya dengan mudah.

Teknologi Pengenalan Karakter Optik (OCR) telah merevolusi cara kita menangani dan memproses dokumen, memungkinkan kita mengekstrak informasi berharga secara efisien. Di antara banyak alat OCR yang tersedia, OCRmyPDF menonjol sebagai pustaka Python serbaguna dan kuat yang menggabungkan kemudahan penggunaan dengan akurasi luar biasa. OCRmyPDF adalah alat baris perintah sumber terbuka dan pustaka Python yang dirancang khusus untuk menambahkan OCR ke file PDF yang ada. Pustaka menganalisis setiap halaman file PDF untuk menentukan ruang warna dan resolusi (DPI) yang diperlukan untuk menangkap semua informasi di halaman tersebut tanpa kehilangan konten.

Perpustakaan OCRmyPDF sumber terbuka mendukung berbagai format masukan, termasuk gambar pindaian, PDF yang ada, dan bahkan file DjVu. Ini beroperasi pada premis "gambar plus teks" dan bertujuan untuk menghasilkan keluaran berkualitas tinggi dengan mempertahankan struktur dan format dokumen asli. Perpustakaan menggunakan teknik pengoptimalan PDF untuk mengurangi ukuran file dengan tetap menjaga kualitas setinggi mungkin. Dengan menerapkan kompresi dan down-sampling, hal ini memastikan bahwa file PDF berkemampuan OCR yang dihasilkan efisien untuk disimpan dan cepat dimuat.

OCRmyPDF menggunakan mesin Tesseract OCR yang tangguh, yang mendukung lebih dari 100 bahasa. Algoritme canggihnya memastikan pengenalan teks secara akurat, bahkan dari gambar berkualitas rendah atau terdistorsi. Perpustakaan telah menyediakan dukungan untuk menghasilkan file PDF/A yang dapat dicari dari PDF biasa dengan mudah. Ini juga menyediakan beberapa opsi pemrosesan gambar, seperti deskew, yang meningkatkan tampilan file dan kualitas OCR. Ketika ini digunakan, lapisan OCR dicangkokkan ke gambar yang diproses. Rangkaian fiturnya yang komprehensif, termasuk dukungan untuk berbagai bahasa, pengoptimalan PDF, kontrol lapisan teks, dan pemrosesan otomatis, menjadikannya alat yang berharga bagi bisnis, peneliti, pengarsip, dan siapa pun yang menangani dokumen pindaian dalam jumlah besar.

Sekilas

Ikhtisar fitur OCRmyPDF.

Ikhtisar Fitur

Lakukan OCR
Tambahkan Kemampuan OCR
Mengenali teks Gambar
Mengonversi gambar teks
Teks Font yang Dikenali
Telusuri PDF
Bahasa Lainnya
Membuat aplikasi OCR
Simpan ke browser
Ekstrak Teks
Dukungan multi-threading

OCRmyPDF

OCRmyPDF mendukung format file gambar populer yang tercantum di bawah.

Pembaca

PNG, JPEG, BMP, TIFF, TGA, DICOM

Penulis

PNG, JPEG, BMP, TIFF

OCRmyPDF

Kemandirian Platform

OCRmyPDF dapat bekerja dengan Python 2.7 dan yang lebih baru.

Python 2.7 ke atas.

OCRmyPDF

Memulai OCRmyPDF

Cara yang direkomendasikan untuk menginstal OCRmyPDF adalah menggunakan pip. Silakan gunakan perintah berikut untuk kelancaran instalasi.

Instal OCRmyPDF melalui pip

 pip install ocrmypdf

Anda juga dapat menginstalnya secara manual; unduh file rilis terbaru langsung dari repositori GitHub.

Pengoptimalan PDF menggunakan Python API

Perpustakaan OCRmyPDF sumber terbuka telah memberikan dukungan fitur yang sangat berguna untuk mengelola ukuran dan kualitas dokumen PDF di dalam aplikasi Python. Perpustakaan menggunakan teknik pengoptimalan PDF untuk mengurangi ukuran file dengan tetap menjaga kualitas setinggi mungkin. Dengan menerapkan kompresi dan down-sampling, ini memastikan bahwa file PDF berkemampuan OCR yang dihasilkan efisien untuk disimpan dan cepat dimuat. OCRmyPDF menyediakan beberapa opsi pengoptimalan yang dapat Anda sesuaikan berdasarkan kebutuhan Anda. Beberapa opsi yang umum digunakan termasuk menghapus file sementara, menerapkan kompresi JBIG2, melewatkan penambahan OCR, menonaktifkan kompresi lossless untuk memaksimalkan pengurangan ukuran file, dan sebagainya.

Bagaimana Mengoptimalkan File PDF menggunakan Python API?

import subprocess

def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
    try:
        # OCRmyPDF command with optimization options
        command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
        
        # Execute the OCRmyPDF command
        subprocess.run(command, check=True)
        
        print("PDF optimization complete!")
    except subprocess.CalledProcessError as e:
        print(f"OCRmyPDF error: {e}")
        
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'

optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)

Integrasi Lapisan Teks PDF melalui Python API

OCRmyPDF, perpustakaan sumber terbuka, memberikan solusi canggih untuk mengintegrasikan lapisan teks ke dalam file PDF, meningkatkan aksesibilitas dokumen dan kemampuan pencarian. Perpustakaan menambahkan lapisan teks yang berisi teks yang dihasilkan OCR langsung ke dokumen PDF, memastikan pelestarian tata letak aslinya. Fitur ini memungkinkan pencarian teks lengkap, salin-tempel, dan ekstraksi teks. Saat bekerja dengan dokumen PDF, memiliki lapisan teks yang terintegrasi di dalam file sangatlah menguntungkan. Lapisan teks berisi teks yang dihasilkan OCR yang dikenali, membuat PDF dapat dicari dan memudahkan penyalinan dan ekstraksi teks. Integrasi ini mempertahankan tata letak dokumen asli sekaligus memungkinkan pengoperasian berbasis teks, sehingga meningkatkan kegunaan dan efisiensi dokumen.