Nyílt forráskódú JavaScript API az OCR webalkalmazásokhoz való hozzáadásához és kezeléséhez

Vezető ingyenes JavaScript-könyvtár az optikai karakterfelismerési (OCR) funkciók hozzáadásához a JS webes alkalmazásokhoz, valamint a nyomtatott vagy kézzel írt szöveg képeinek gépi olvasható szöveggé történő ingyenes átalakításához.

A Tesseract.js egy nagyon hasznos, nyílt forráskódú JavaScript-könyvtár, amely lehetővé teszi a szoftverfejlesztők számára, hogy minimális erőfeszítéssel és költséggel integrálják az optikai karakterfelismerő (OCR) funkciót webes alkalmazásaikba. Az OCR a nyomtatott vagy kézzel írt szöveg képeinek géppel olvasható szöveggé alakításának folyamata. A Tesseract.js a népszerű Tesseract OCR motor portja, amelyet eredetileg a Hewlett-Packard fejlesztett ki az 1980-as években, majd a Google karbantartott. A Tesseract.js több mint 100 nyelvet képes felismerni, így hatékony eszköz a fejlesztők számára, akik OCR funkciót szeretnének hozzáadni webalkalmazásaikhoz.

A Tesseract.js nagyon könnyen kezelhető, és számos feladat elvégzésére használható, például szöveg kivonatolása beolvasott dokumentumokból, nyugtákból és névjegykártyákból, adatbeviteli feladatok automatizálása, valamint a webalkalmazásokon belüli keresési funkciók javítása. A Tesseract.js egyik legfontosabb előnye, hogy képes felismerni a szöveget még akkor is, ha a bemeneti kép rossz minőségű vagy rossz felbontású. A könyvtár gépi tanulási algoritmusokat használ az OCR-eredmények pontosságának javítására. Emellett oldalelrendezés-elemzést is végezhet, és felismerheti a képen belüli érdeklődésre számot tartó területeket.

A Tesseract.js egyre népszerűbb a könnyű használhatósága és a hatékony OCR-képessége miatt, és zökkenőmentesen futtatható böngészőben vagy szerveren a NodeJS segítségével. Egy egyszerű API-t biztosít, amely lehetővé teszi a szoftverfejlesztők számára, hogy konfigurálják az OCR-beállításokat, például a nyelvet, az oldalszegmentálási módot és az engedélyezési lista karaktereit. Szövegfelismerési képessége a rossz minőségű képekből és több nyelv támogatása értékes eszközzé teszi számos alkalmazáshoz, és kiváló választás azoknak a fejlesztőknek, akik OCR-t szeretnének hozzáadni webalkalmazásaikhoz.

Első pillantásra

A Tesseract.js szolgáltatásainak áttekintése.

Jellemzők áttekintése

Végezze el az OCR-t
OCR képességek hozzáadása
A kép szövegének felismerése
Szövegképek beépítése
Felismert betűtípus szövege
PDF keresése
Több mint 100 nyelv
OCR-alkalmazások létrehozása
Mentés böngészőbe
Szöveg kibontása
Többszálú támogatás

Tesseract.js

A Tesseract.js támogatja az alább felsorolt népszerű képfájlformátumokat.

Olvasó

PNG, JPEG, BMP, TIFF, TGA, DICOM

Író

PNG, JPEG, BMP, TIFF

Tesseract.js

Platformfüggetlenség

A Tesseract.js bármilyen Java-alapú programozási nyelvvel működik

Java

Tesseract.js

Kezdő lépések a Tesseract.js használatával

A Tesseract.js telepítésének javasolt módja az npm használata. Kérjük, használja a következő parancsot a zökkenőmentes telepítéshez

Tesseract.jsvia npm telepítése

 npm install tesseract.js

Kézzel is telepítheti; töltse le a legújabb kiadású fájlokat közvetlenül a GitHub tárhelyről.

Kép konvertálása szöveggé JavaScript API-n keresztül

A Tesseract.js nyílt forráskódú JavaScript-könyvtár megkönnyíti a szoftverfejlesztők számára, hogy különféle típusú képekkel dolgozzanak, például BMP, JPG, PNG, PBM, WebP és még sok más. A könyvtár támogatja a szövegek kinyerését a képekből, hogy automatizálja a képeken, PDF-fájlokon és beolvasott dokumentumokon lévő szövegek feldolgozását. A következő példa bemutatja, hogyan tölthet be egy képet és a belőle kivont szöveget néhány sornyi kóddal. A nyelvi argumentum a képek feldolgozásához használandó betanított nyelvi adatok meghatározására szolgál. A szoftverfejlesztők több nyelvet is használhatnak itt.

Hogyan lehet képet szöveggé konvertálni JavaScript API segítségével?

Tesseract.recognize(
  image,language,
  { 
    logger: m => console.log(m) 
  }
)
.catch (err => {
  console.error(err);
})
.then(result => {
 console.log(result);
})
}

Képrégió olvasása és szöveg kibontása a JS API-n keresztül

A nyílt forráskódú JavaScript-könyvtár nagyon hasznos funkciókat tartalmaz a kép egy adott részének beolvasásához, és az adatok JavaScript-alkalmazásokon belüli rögzítéséhez. Az API támogatja a képterület rögzítését, és a belső, hatékony OCR motor segítségével megpróbálja felismerni a szöveget ezen a területen. A következő példák bemutatják, hogy a szoftverfejlesztők hogyan adhatnak meg URL-t a képhez, és az API hogyan képes könnyen felismerni és felismerni a szöveget a kiválasztott területen.

Szöveg olvasása és felismerése egy kép kiválasztott régiójában a JS API-n keresztül

const { createWorker } = require('tesseract.js');

const worker = await createWorker();
const rectangle = { left: 0, top: 0, width: 500, height: 250 };

(async () => {
  await worker.loadLanguage('eng');
  await worker.initialize('eng');
  const { data: { text } } = await worker.recognize('https://tesseract.projectnaptha.com/img/eng_bw.png', { rectangle });
  console.log(text);
  await worker.terminate();
})();