Perpustakaan Ruby Gratis Tingkat Lanjut untuk Memuat dan Mengekstrak Teks dari Gambar
API Ruby OCR Sumber Terbuka Terkemuka & Pengonversi Gambar ke Teks yang memungkinkan Pengembang Perangkat Lunak Memuat, Mengenali, dan Mengekstrak Teks dari Gambar (gambar pindaian & file PDF)
Pengenalan Karakter Optik (OCR) adalah teknologi canggih yang memungkinkan komputer mengenali dan mengekstrak teks dari gambar atau dokumen yang dipindai. Ini memiliki banyak aplikasi, mulai dari digitalisasi bahan cetak hingga otomatisasi proses entri data. Dalam bahasa pemrograman Ruby, salah satu perpustakaan populer untuk OCR adalah Ruby-Tesseract-OCR. Ruby-Tesseract-OCR adalah permata Ruby yang berfungsi sebagai pembungkus mesin Tesseract OCR. Tesseract adalah mesin OCR Open Source yang dikembangkan oleh Google dan terkenal dengan akurasi dan dukungan bahasanya.
Ruby-Tesseract-OCR melampaui kemampuan OCR dasar dan menawarkan fitur tambahan untuk kasus penggunaan tingkat lanjut. Misalnya, pengembang perangkat lunak dapat menentukan wilayah minat (ROI) dalam suatu gambar untuk membatasi analisis OCR pada area tertentu. Ini sangat berguna ketika menangani dokumen yang rumit atau ketika Anda hanya perlu mengekstrak teks dari bagian tertentu. Library ini menyediakan beberapa fitur tambahan untuk meningkatkan kemampuan OCR, seperti memuat gambar yang sudah ada, mengekstraksi teks dari gambar atau dokumen yang dipindai, memperoleh keluaran HOCR (HTML OCR), dan masih banyak lagi.
Permata Ruby-Tesseract-OCR menyediakan antarmuka yang mudah digunakan untuk berinteraksi dengan mesin Tesseract, memungkinkan pengembang Ruby untuk mengintegrasikan kemampuan OCR ke dalam proyek mereka dengan mudah. Baik Anda perlu mengekstrak informasi dari faktur, mendigitalkan materi cetak, atau mengotomatiskan tugas entri data, perpustakaan sumber terbuka memberikan solusi yang andal dan efisien. Cobalah, dan buka potensi OCR di proyek Ruby Anda sekarang.
Memulai Ruby-Tesseract-OCR
Cara yang direkomendasikan untuk menginstal Ruby-Tesseract-OCR adalah menggunakan Rubygems. Silakan gunakan perintah berikut untuk kelancaran instalasi.
Instal Ruby-Tesseract-OCR melalui Rubygems
gem install tesseract-ocr
Anda dapat mendownload pustaka bersama yang telah dikompilasi dari repositori Github.
Ekstrak Teks dari Gambar & Dokumen yang Dipindai melalui Ruby
Ruby-Tesseract-OCR adalah pustaka sumber terbuka yang sangat kuat yang memungkinkan pengembang perangkat lunak memuat dan mengekstrak teks dari berbagai jenis gambar hanya dengan beberapa baris kode Ruby. Perpustakaan memudahkan mengekstrak teks dari gambar, PDF, atau dokumen yang dipindai. Alur kerja umumnya melibatkan memuat gambar, mengonfigurasi parameter OCR, dan menjalankan mesin OCR untuk mengenali teks. Agar operasi berhasil, pengembang perlu menyediakan jalur ke gambar yang ingin mereka proses dan memanggil metode text_for untuk mengekstrak teks. Terakhir, hasilnya akan dicetak ke konsol. Pustaka menawarkan berbagai opsi konfigurasi F untuk mengontrol perilaku OCR, seperti mode segmentasi halaman, karakter daftar putih, dan banyak lagi. Contoh berikut menunjukkan bagaimana pengembang perangkat lunak dapat memuat gambar JPEG dan mengekstrak teks darinya di dalam aplikasi Ruby.
Bagaimana Cara Mengekstrak Teks dari Gambar menggunakan Perintah Ruby?
require 'tesseract'
e = Tesseract::Engine.new {|e|
e.language = :eng
e.blacklist = '|'
}
e.text_for('test/first.png').strip # => 'ABC'
Ekstrak Teks dari Area Gambar Tertentu melalui Ruby
Pustaka open source Ruby-Tesseract-OCR melampaui kemampuan dasar OCR dan menawarkan fitur tambahan untuk kasus penggunaan tingkat lanjut. Misalnya, pengguna dapat menentukan wilayah minat (ROI) dalam gambar untuk membatasi analisis OCR pada area tertentu. Hal ini sangat berguna ketika berhadapan dengan dokumen yang kompleks atau ketika pengguna hanya perlu mengekstrak teks dari bagian tertentu. Selain itu, perpustakaan menyediakan metode untuk memperoleh keluaran HOCR (HTML OCR), yang tidak hanya mencakup teks yang dikenali tetapi juga informasi tentang tata letak dan koordinat elemen teks. Keluaran HOCR berguna ketika Anda memerlukan data yang lebih terperinci atau ingin melakukan analisis lebih lanjut pada struktur teks.
Bagaimana cara melakukan hOCR pada Gambar melalui Perpustakaan Ruby?
require 'tesseract'
e = Tesseract::Engine.new {|e|
e.language = :eng
e.blacklist = '|'
}
puts e.hocr_for('test/first.png')