1. Prodotti
  2.   OCR
  3.   Node.js
  4.   Node-Tesseract-OCR
 
  

API Node.js gratuita per aggiungere capacità OCR ai progetti JS.

Libreria OCR Open Source per Node.js che consente ai programmatori di riconoscere ed estrarre testo da vari formati di file, incluse immagini (JPEG, PNG), PDF e documenti, gratuitamente in più lingue.

Che cos'è Node-Tesseract-OCR?

Nel mondo digitale odierno, estrarre testo da immagini e documenti è diventato un compito cruciale in vari settori, tra cui la gestione dei documenti, l'elaborazione dei dati e l'intelligenza artificiale. La tecnologia di Riconoscimento Ottico dei Caratteri (OCR) ha reso possibile convertire documenti scansionati, immagini e PDF in formati di testo modificabili. Node-Tesseract-OCR è un'API open‑source che incorpora la potenza del motore Tesseract OCR per fornire un modo fluido ed efficiente di eseguire attività OCR nelle applicazioni Node.js.

Node-Tesseract-OCR è un wrapper Node.js per il motore Tesseract OCR, che permette agli sviluppatori software di utilizzare le potenti funzionalità di riconoscimento testo di Tesseract all'interno di un ambiente Node.js. L'API è mantenuta in questo repository GitHub e offre una gamma di funzionalità che la rendono adatta a diversi casi d'uso, dall'estrazione semplice di testo a compiti più complessi di elaborazione documenti. Gli sviluppatori possono estrarre testo da immagini e documenti in più lingue, rendendola uno strumento versatile per varie applicazioni.

L'API Node-Tesseract-OCR fornisce avanzate capacità di elaborazione delle immagini, inclusi filtraggio, ridimensionamento e ritaglio, per garantire che il testo estratto sia accurato e affidabile. Supporta oltre 100 lingue, rendendola una soluzione versatile per compiti OCR in ambienti diversi. Gli sviluppatori possono estrarre testo da immagini, PDF e documenti, restituendo il risultato in vari formati, come JSON, XML e testo semplice. È progettata per essere leggera, flessibile e facile da usare, rappresentando una scelta ideale per chi desidera aggiungere capacità OCR ai propri progetti. Grazie alle sue avanzate capacità di elaborazione delle immagini, al supporto linguistico e ai meccanismi di gestione degli errori, è una scelta eccellente per gli sviluppatori.

Previous Next

Iniziare con Node-Tesseract-OCR

Il modo consigliato per installare Node-Tesseract-OCR è utilizzare npm. Si prega di usare il comando seguente per un'installazione senza problemi

Installa Node-Tesseract-OCR via npm

npm install node-tesseract-ocr 

È possibile installarlo anche manualmente; scaricare i file dell'ultima versione direttamente dal repository GitHub.

Estrazione di Testo da Immagini nell'API Node.js

La libreria open source Node-Tesseract-OCR semplifica per gli sviluppatori la creazione di applicazioni che estraggono automaticamente testo da immagini all'interno di applicazioni Node.js. Supporta l'estrazione di testo da documenti scansionati, PDF, foto scattate con la fotocamera o foto di ricevute. Questo può essere utile per creare archivi ricercabili, automatizzare l'inserimento dati o elaborare grandi volumi di documenti in settori come finanza e sanità. Ecco un semplice esempio che mostra come estrarre programmaticamente testo da immagini all'interno di applicazioni Node.js.

Come estrarre testo da immagini all'interno di un ambiente Node.js?

const tesseract = require("node-tesseract-ocr");

tesseract.recognize("path/to/image.jpg")
  .then(text => {
    console.log("Recognized Text:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });

Miglior Pre‑elaborazione delle Immagini in Node.js

Pre‑elaborare le immagini prima di applicare l'OCR può migliorare significativamente l'accuratezza del riconoscimento del testo. La libreria open source Node-Tesseract-OCR consente tecniche di pre‑elaborazione di base, come ridimensionamento, binarizzazione e correzione dell'inclinazione. Questi passaggi possono essere implementati usando librerie Node.js aggiuntive come sharp o jimp in combinazione con Node-Tesseract-OCR. L'esempio seguente mostra come gli sviluppatori utilizzano i passaggi di pre‑elaborazione per migliorare il riconoscimento, soprattutto con immagini di qualità inferiore.

Come applicare passaggi di pre‑elaborazione per migliorare il riconoscimento via API Node.js?

const sharp = require("sharp");
const tesseract = require("node-tesseract-ocr");

sharp("path/to/input.jpg")
  .resize(800, 600) // Resize the image
  .greyscale() // Convert to greyscale
  .toBuffer()
  .then(data => {
    return tesseract.recognize(data, { lang: "eng" });
  })
  .then(text => {
    console.log("Preprocessed Image Text:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });

Testo Riconosciuto in Multilingua

Una delle caratteristiche distintive di Node-Tesseract-OCR è il suo ampio supporto multilingua. La libreria Tesseract OCR supporta oltre 100 lingue, rendendola una scelta ideale per applicazioni che devono elaborare documenti in varie lingue. Gli sviluppatori possono specificare le lingue da utilizzare, migliorando l'accuratezza del riconoscimento per testi non inglesi. Ecco un esempio che mostra come gli sviluppatori possono riconoscere testo in francese all'interno di applicazioni Node.js?

Come riconoscere testo da immagine in francese via API JavaScript?

const config = {
  lang: "fra", // French language support
  oem: 1,
  psm: 3
};

tesseract.recognize("path/to/french-text-image.jpg", config)
  .then(text => {
    console.log("Recognized Text in French:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });

 Italiano