1. Produk
  2.   OCR
  3.   JavaScript
  4.   Tesseract.js
 
  

API JavaScript Sumber Terbuka untuk Menambahkan & Mengelola OCR ke Aplikasi Web

Perpustakaan JavaScript Gratis Terkemuka untuk Menambahkan fungsionalitas Pengenalan Karakter Optik (OCR) ke Aplikasi Web JS & Mengubah Gambar teks Cetak atau Tulisan Tangan menjadi Teks yang Dapat Dibaca Mesin secara gratis.

Tesseract.js adalah pustaka JavaScript sumber terbuka yang sangat berguna yang memungkinkan pengembang perangkat lunak mengintegrasikan fungsi pengenalan karakter optik (OCR) ke dalam aplikasi web mereka dengan upaya dan biaya minimal. OCR adalah proses mengubah gambar teks yang dicetak atau ditulis tangan menjadi teks yang dapat dibaca mesin. Tesseract.js adalah port dari mesin Tesseract OCR yang populer, yang awalnya dikembangkan oleh Hewlett-Packard pada tahun 1980an dan kemudian dikelola oleh Google. Tesseract.js dapat mengenali lebih dari 100 bahasa, menjadikannya alat yang ampuh bagi pengembang yang ingin menambahkan fungsi OCR ke aplikasi web mereka.

Tesseract.js sangat mudah ditangani dan dapat digunakan untuk berbagai tugas, seperti mengekstrak teks dari dokumen yang dipindai, kuitansi, dan kartu nama, mengotomatiskan tugas entri data serta meningkatkan fungsionalitas pencarian dalam aplikasi web. Salah satu keunggulan utama Tesseract.js adalah kemampuannya mengenali teks meskipun gambar masukan memiliki kualitas atau resolusi buruk. Perpustakaan menggunakan algoritma pembelajaran mesin untuk meningkatkan akurasi hasil OCR. Itu juga dapat melakukan analisis tata letak halaman dan mendeteksi wilayah yang diminati dalam suatu gambar.

Tesseract.js semakin populer karena kemudahan penggunaannya serta kemampuan OCR yang kuat dan dapat dijalankan dengan lancar baik di browser atau di server dengan NodeJS. Ini menyediakan API sederhana yang memungkinkan pengembang perangkat lunak untuk mengonfigurasi opsi OCR seperti bahasa, mode segmentasi halaman, dan karakter daftar putih. Kemampuannya untuk mengenali teks dari gambar berkualitas buruk dan dukungan untuk berbagai bahasa menjadikannya alat yang berharga untuk berbagai aplikasi dan pilihan tepat bagi pengembang yang ingin menambahkan OCR ke aplikasi web mereka.

Previous Next

Memulai Tesseract.js

Cara yang direkomendasikan untuk menginstal Tesseract.js adalah menggunakan npm. Silakan gunakan perintah berikut untuk kelancaran instalasi

Instal Tesseract.js melalui npm

 npm install tesseract.js

Anda juga dapat menginstalnya secara manual; unduh file rilis terbaru langsung dari repositori GitHub.

Konversi Gambar menjadi Teks melalui JavaScript API

Pustaka JavaScript sumber terbuka Tesseract.js memudahkan pengembang perangkat lunak untuk Bekerja dengan berbagai jenis gambar seperti BMP, JPG, PNG, PBM, WebP, dan banyak lagi. Perpustakaan mendukung ekstraksi teks dari gambar untuk mengotomatiskan pemrosesan teks pada gambar, PDF, dan dokumen yang dipindai. Contoh berikut menunjukkan cara memuat gambar dan mengekstrak teks darinya hanya dengan beberapa baris kode. Argumen bahasa digunakan untuk menentukan data bahasa terlatih yang akan digunakan dalam pemrosesan gambar. Pengembang perangkat lunak dapat menggunakan berbagai bahasa di sini.

Bagaimana Mengonversi Gambar menjadi Teks menggunakan JavaScript API?

Tesseract.recognize(
  image,language,
  { 
    logger: m => console.log(m) 
  }
)
.catch (err => {
  console.error(err);
})
.then(result => {
 console.log(result);
})
}

Baca Wilayah Gambar & Ekstrak Teks melalui JS API

Perpustakaan JavaScript sumber terbuka telah menyertakan fitur yang sangat berguna untuk membaca area tertentu di dalam gambar dan menangkap datanya di dalam aplikasi JavaScript. API mendukung pengambilan area gambar dan mencoba mengenali teks di dalam wilayah ini menggunakan mesin OCR internal yang kuat. Contoh berikut menunjukkan bagaimana pengembang perangkat lunak dapat memberikan URL ke gambar dan API dapat dengan mudah mendeteksi dan mengenali teks di area yang dipilih.

Membaca dan Mengenali Teks di Wilayah Gambar yang Dipilih melalui JS API

const { createWorker } = require('tesseract.js');

const worker = await createWorker();
const rectangle = { left: 0, top: 0, width: 500, height: 250 };

(async () => {
  await worker.loadLanguage('eng');
  await worker.initialize('eng');
  const { data: { text } } = await worker.recognize('https://tesseract.projectnaptha.com/img/eng_bw.png', { rectangle });
  console.log(text);
  await worker.terminate();
})();
 Indonesia