Ingyenes Node.js API OCR képességek hozzáadásához JS projektekhez.

Nyílt forráskódú Node.js OCR könyvtár, amely lehetővé teszi a fejlesztők számára, hogy ingyenesen felismerjék és kinyerjék a szöveget különféle fájlformátumokból, beleértve a képeket (JPEG, PNG), PDF-eket és dokumentumokat több nyelven.

Mi az a Node-Tesseract-OCR?

A mai digitális korban a képekből és dokumentumokból történő szövegkivonás kulcsfontosságú feladattá vált számos iparágban, beleértve a dokumentumkezelést, az adatfeldolgozást és a mesterséges intelligenciát. Az optikai karakterfelismerés (OCR) technológia lehetővé teszi a beolvasott dokumentumok, képek és PDF-ek szerkeszthető szövegformátumokká alakítását. A Node-Tesseract-OCR egy nyílt forráskódú API, amely a Tesseract OCR motor erejét felhasználva zökkenőmentes és hatékony módot biztosít az OCR feladatok végrehajtására Node.js alkalmazásokban.

A Node-Tesseract-OCR egy Node.js csomagoló a Tesseract OCR motorhoz, amely lehetővé teszi a szoftverfejlesztők számára, hogy a Tesseract erőteljes szövegfelismerő funkcióit egy Node.js környezetben használják. Az API a GitHub tárhelyen karbantartott, és számos funkciót kínál, amelyek különböző felhasználási esetekhez alkalmasak, az egyszerű szövegkivonástól a bonyolultabb dokumentumfeldolgozási feladatokig. A szoftverfejlesztők több nyelven is ki tudják nyerni a szöveget képekből és dokumentumokból, így sokoldalú eszköz különféle alkalmazásokhoz.

A Node-Tesseract-OCR API fejlett képfeldolgozási képességeket biztosít, beleértve a képszűrést, átméretezést és vágást, hogy a kinyert szöveg pontos és megbízható legyen. Több mint 100 nyelvet támogat, így sokoldalú megoldás OCR feladatokra különböző környezetekben. A fejlesztők képekből, PDF-ekből és dokumentumokból tudnak szöveget kinyerni, és a kinyert szöveget különféle formátumokban, például JSON, XML és egyszerű szöveg formájában visszaadni. A könyvtár könnyű, rugalmas és egyszerűen használható, így ideális választás azoknak a fejlesztőknek, akik OCR képességeket szeretnének hozzáadni projektjeikhez. Fejlett képfeldolgozási képességei, nyelvtámogatása és hibakezelési mechanizmusai miatt kiváló választás a fejlesztők számára, akik OCR funkciókat kívánnak integrálni.

Áttekintés

A Node-Tesseract-OCR funkcióinak áttekintése.

Funkciók áttekintése

OCR végrehajtása
OCR képességek hozzáadása
Képszöveg felismerése
Szöveges képek konvertálása
Felismerett betűtípus szöveg
PDF keresése
Több mint 100 nyelv
OCR alkalmazások létrehozása
Mentés a böngészőbe
Szöveg kinyerése
Többszálú támogatás

Node-Tesseract-OCR

A Node-Tesseract-OCR támogatja a népszerű képfájl-formátumokat, amelyeket alább felsorolunk.

Olvasó

PNG, JPEG, BMP, TIFF, TGA, DICOM

Író

PNG, JPEG, BMP, TIFF

Node-Tesseract-OCR

Platformfüggetlenség

A Node-Tesseract-OCR bármely Java-alapú programozási nyelvvel működhet

Java

Node-Tesseract-OCR

Első lépések a Node-Tesseract-OCR használatával

A Node-Tesseract-OCR telepítésének ajánlott módja az npm használata. Kérjük, használja a következő parancsot a zökkenőmentes telepítéshez

Install Node-Tesseract-OCR via npm

npm install node-tesseract-ocr

Manuálisan is telepítheti; töltse le a legújabb kiadási fájlokat közvetlenül a GitHub tárhelyről.

Szövegkivonás képekből a Node.js API-ban

A nyílt forráskódú Node-Tesseract-OCR könyvtár megkönnyíti a szoftverfejlesztők számára, hogy olyan alkalmazásokat hozzanak létre, amelyek automatikusan kinyerik a szöveget a képekből Node.js környezetben. Támogatja a szövegkivonást beolvasott dokumentumokból, PDF-ekből, kamera fényképekből vagy nyugták képeiből. Ez hasznos lehet kereshető archívumok létrehozásához, az adatbevitel automatizálásához vagy nagy mennyiségű dokumentum feldolgozásához olyan ágazatokban, mint a pénzügy és az egészségügy. Az alábbi egyszerű példa bemutatja, hogyan lehet programozottan kinyerni a szöveget képekből Node.js alkalmazásokban.

How to Extract Text from Images inside Node.js Environment?

const tesseract = require("node-tesseract-ocr");

tesseract.recognize("path/to/image.jpg")
  .then(text => {
    console.log("Recognized Text:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });

Jobb képelőfeldolgozás Node.js-ben

A képek előfeldolgozása az OCR alkalmazása előtt jelentősen javíthatja a szövegfelismerés pontosságát. A nyílt forráskódú Node-Tesseract-OCR könyvtár lehetővé teszi az alapvető előfeldolgozási technikákat, mint például az átméretezés, binarizálás és a dőlés korrigálása. Ezeket a lépéseket további Node.js könyvtárakkal, például a sharp vagy a jimp segítségével lehet megvalósítani a Node-Tesseract-OCR-rel együtt. Az alábbi példa bemutatja, hogyan használják a fejlesztők az előfeldolgozási lépéseket a felismerés javítására, különösen alacsony minőségű képeknél.

How to Apply Preprocessing Steps to Improve Recognition via Node.js API?

const sharp = require("sharp");
const tesseract = require("node-tesseract-ocr");

sharp("path/to/input.jpg")
  .resize(800, 600) // Resize the image
  .greyscale() // Convert to greyscale
  .toBuffer()
  .then(data => {
    return tesseract.recognize(data, { lang: "eng" });
  })
  .then(text => {
    console.log("Preprocessed Image Text:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });

Felismerett szöveg több nyelven

A Node-Tesseract-OCR egyik kiemelkedő jellemzője a kiterjedt többnyelvű támogatás. A Tesseract OCR könyvtár több mint 100 nyelvet támogat, így ideális választás olyan alkalmazásokhoz, amelyeknek különböző nyelveken írt dokumentumokat kell feldolgozniuk. A fejlesztők megadhatják a Tesseract által használandó nyelvet (nyelveket), ezáltal javítva a nem angol szövegek felismerési pontosságát. Az alábbi példa bemutatja, hogyan tudnak a fejlesztők francia nyelvű szöveget felismerni Node.js alkalmazásokban?

How to Recognized Text from Image in French via JavaScript API?

const config = {
  lang: "fra", // French language support
  oem: 1,
  psm: 3
};

tesseract.recognize("path/to/french-text-image.jpg", config)
  .then(text => {
    console.log("Recognized Text in French:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });