JavaScript API с отворен код за добавяне и управление на OCR към уеб приложения

Водеща безплатна JavaScript библиотека за добавяне на функционалност за оптично разпознаване на символи (OCR) към JS уеб приложения и безплатно преобразуване на изображения на печатен или ръкописен текст в машинно четим текст.

Tesseract.js е много полезна JavaScript библиотека с отворен код, която позволява на разработчиците на софтуер да интегрират функционалност за оптично разпознаване на символи (OCR) в своите уеб приложения с минимални усилия и разходи. OCR е процес на преобразуване на изображения на печатен или ръкописен текст в машинно четим текст. Tesseract.js е порт на популярния Tesseract OCR двигател, който първоначално е разработен от Hewlett-Packard през 80-те години на миналия век и по-късно се поддържа от Google. Tesseract.js може да разпознава над 100 езика, което го прави мощен инструмент за разработчици, които искат да добавят OCR функционалност към своите уеб приложения.

Tesseract.js е много лесен за работа и може да се използва за различни задачи, като извличане на текст от сканирани документи, разписки и визитни картички, автоматизиране на задачи за въвеждане на данни, както и подобряване на функционалността за търсене в уеб приложенията. Едно от ключовите предимства на Tesseract.js е способността му да разпознава текст дори когато входното изображение е с лошо качество или резолюция. Библиотеката използва алгоритми за машинно обучение, за да подобри точността на OCR резултатите. Може също така да извършва анализ на оформлението на страницата и да открива интересни региони в изображението.

Tesseract.js става все по-популярен поради своята лекота на използване, както и мощни възможности за OCR и може да се изпълнява гладко или в браузър, или на сървър с NodeJS. Той предоставя прост API, който позволява на разработчиците на софтуер да конфигурират опции за OCR като език, режим на сегментиране на страници и знаци в белия списък. Способността му да разпознава текст от изображения с лошо качество и поддръжката на множество езици го правят ценен инструмент за широк набор от приложения и отличен избор за разработчици, които искат да добавят OCR към своите уеб приложения.

С един поглед

Общ преглед на функциите на Tesseract.js.

Преглед на характеристиките

Извършване на OCR
Добавяне на възможности за OCR
Разпознаване на текст на изображение
Преобразувайте изображения на текст
Текст на разпознат шрифт
Търсене в PDF
Над 100 езика
Създаване на OCR приложения
Запазване в браузър
Извличане на текст
Поддръжка на много нишки

Tesseract.js

Tesseract.js поддържа популярни файлови формати с изображения, изброени по-долу.

Читател

PNG, JPEG, BMP, TIFF, TGA, DICOM

Писател

PNG, JPEG, BMP, TIFF

Tesseract.js

Независимост на платформата

Tesseract.js може да работи с всеки базиран на Java език за програмиране

Java

Tesseract.js

Първи стъпки с Tesseract.js

Препоръчителният начин за инсталиране на Tesseract.js е използването на npm. Моля, използвайте следната команда за гладка инсталация

Инсталирайте Tesseract.jsvia npm

 npm install tesseract.js

Можете също да го инсталирате ръчно; изтеглете файловете с най-новата версия директно от хранилището на GitHub.

Конвертиране на изображение в текст чрез JavaScript API

Библиотеката на JavaScript с отворен код Tesseract.js улеснява разработчиците на софтуер да работят с различни видове изображения като BMP, JPG, PNG, PBM, WebP и много други. Библиотеката поддържа извличане на текст от изображения за автоматизиране на обработката на текстове в изображения, PDF файлове и сканирани документи. Следващият пример показва как да заредите изображение и извлечен текст от него само с няколко реда код. Езиковият аргумент се използва за определяне на обучените езикови данни, които да се използват при обработката на изображения. Разработчиците на софтуер могат да използват няколко езика тук.

Как да конвертирате изображение в текст с помощта на JavaScript API?

Tesseract.recognize(
  image,language,
  { 
    logger: m => console.log(m) 
  }
)
.catch (err => {
  console.error(err);
})
.then(result => {
 console.log(result);
})
}

Четене на регион на изображение и извличане на текст чрез JS API

Библиотеката на JavaScript с отворен код включва много полезни функции за четене на определена област в изображението и заснемане на данните в нея в приложения на JavaScript. API поддържа заснемане на областта на изображението и се опитва да разпознае текст в този регион с помощта на вътрешния мощен OCR механизъм. Следващите примери показват как разработчиците на софтуер могат да предоставят URL на изображението и API може лесно да открие и разпознае текст в избраната област.

Четене и разпознаване на текст в избрана област на изображение чрез JS API

const { createWorker } = require('tesseract.js');

const worker = await createWorker();
const rectangle = { left: 0, top: 0, width: 500, height: 250 };

(async () => {
  await worker.loadLanguage('eng');
  await worker.initialize('eng');
  const { data: { text } } = await worker.recognize('https://tesseract.projectnaptha.com/img/eng_bw.png', { rectangle });
  console.log(text);
  await worker.terminate();
})();