API JavaScript з відкритим вихідним кодом для додавання та керування розпізнаванням символів у веб-програмах

Провідна безкоштовна бібліотека JavaScript для додавання функцій оптичного розпізнавання символів (OCR) до веб-додатків JS і безкоштовного перетворення зображень друкованого чи рукописного тексту в машиночитаний текст.

Tesseract.js — це дуже корисна бібліотека JavaScript з відкритим кодом, яка дозволяє розробникам програмного забезпечення інтегрувати функцію оптичного розпізнавання символів (OCR) у свої веб-програми з мінімальними зусиллями та витратами. OCR — це процес перетворення зображень друкованого або рукописного тексту в машиночитаний текст. Tesseract.js є портом популярного механізму OCR Tesseract, який спочатку був розроблений Hewlett-Packard у 1980-х роках, а пізніше підтримувався Google. Tesseract.js може розпізнавати понад 100 мов, що робить його потужним інструментом для розробників, які хочуть додати функціональність OCR до своїх веб-програм.

Tesseract.js дуже простий у користуванні, і його можна використовувати для різноманітних завдань, таких як вилучення тексту зі сканованих документів, квитанцій і візитних карток, автоматизація завдань із введення даних, а також покращення функцій пошуку у веб-додатках. Однією з ключових переваг Tesseract.js є його здатність розпізнавати текст, навіть якщо вхідне зображення має низьку якість або роздільність. Бібліотека використовує алгоритми машинного навчання для підвищення точності результатів OCR. Він також може виконувати аналіз макета сторінки та виявляти цікаві області на зображенні.

Tesseract.js стає популярним завдяки своїй простоті у використанні, а також потужним можливостям розпізнавання символів, і його можна легко запускати у браузері або на сервері за допомогою NodeJS. Він надає простий API, який дозволяє розробникам програмного забезпечення налаштовувати параметри OCR, такі як мова, режим сегментації сторінки та символи білого списку. Його здатність розпізнавати текст із зображень низької якості та підтримка кількох мов роблять його цінним інструментом для широкого спектру програм і чудовим вибором для розробників, які хочуть додати OCR до своїх веб-програм.

Огляд

Огляд функцій Tesseract.js.

Огляд функцій

Виконайте OCR
Додати можливості OCR
Розпізнати текст зображення
Перетворення зображень тексту
Текст розпізнаного шрифту
Пошук PDF
Більше 100 мов
Створюйте програми OCR
Зберегти у браузері
Витягти текст
Підтримка багатопоточності

Tesseract.js

Tesseract.js підтримує популярні формати файлів зображень, наведені нижче.

читач

PNG, JPEG, BMP, TIFF, TGA, DICOM

Письменник

PNG, JPEG, BMP, TIFF

Tesseract.js

Незалежність від платформи

Tesseract.js може працювати з будь-якою мовою програмування на основі Java

Java

Tesseract.js

Початок роботи з Tesseract.js

Рекомендований спосіб встановлення Tesseract.js — використання npm. Будь ласка, скористайтеся наступною командою для плавного встановлення

Установіть Tesseract.jsvia через npm

 npm install tesseract.js

Ви також можете встановити його вручну; завантажте файли останнього випуску безпосередньо зі сховища GitHub.

Перетворення зображення на текст за допомогою JavaScript API

Бібліотека JavaScript з відкритим кодом Tesseract.js полегшує розробникам програмного забезпечення роботу з різними типами зображень, як-от BMP, JPG, PNG, PBM, WebP тощо. Бібліотека підтримує вилучення тексту із зображень для автоматизації обробки текстів на зображеннях, PDF-файлах і сканованих документах. У наступному прикладі показано, як завантажити зображення та витягнутий із нього текст за допомогою лише кількох рядків коду. Аргумент мови використовується для визначення навчених мовних даних для обробки зображень. Тут розробники програмного забезпечення можуть використовувати кілька мов.

Як перетворити зображення на текст за допомогою JavaScript API?

Tesseract.recognize(
  image,language,
  { 
    logger: m => console.log(m) 
  }
)
.catch (err => {
  console.error(err);
})
.then(result => {
 console.log(result);
})
}

Читання області зображення та вилучення тексту за допомогою JS API

Бібліотека JavaScript з відкритим вихідним кодом включає дуже корисні функції для читання певної області всередині зображення та захоплення її даних у програмах JavaScript. API підтримує захоплення області зображення та намагається розпізнати текст у цій області за допомогою внутрішнього потужного механізму OCR. У наступних прикладах показано, як розробники програмного забезпечення можуть надати URL-адресу зображення, а API може легко виявити та розпізнати текст у вибраній області.

Читання та розпізнавання тексту у вибраній області зображення за допомогою JS API

const { createWorker } = require('tesseract.js');

const worker = await createWorker();
const rectangle = { left: 0, top: 0, width: 500, height: 250 };

(async () => {
  await worker.loadLanguage('eng');
  await worker.initialize('eng');
  const { data: { text } } = await worker.recognize('https://tesseract.projectnaptha.com/img/eng_bw.png', { rectangle });
  console.log(text);
  await worker.terminate();
})();