API .NET open source per OCR per elaborare testo e immagini
API Open Source .NET di riconoscimento ottico dei caratteri (OCR) utilizzata per convertire immagini (immagini scansionate e file PDF) contenenti testo in testo leggibile dalla macchina.
Tesseract è un potente motore di riconoscimento ottico dei caratteri (OCR) open source che consente agli sviluppatori di software di convertire vari tipi di immagini contenenti testo in testo leggibile dalla macchina all'interno di applicazioni Python. La tecnologia open source ha rivoluzionato il modo in cui gli sviluppatori di software creano le loro applicazioni rendendo più semplice l'accesso e l'integrazione di potenti strumenti e librerie all'interno delle loro applicazioni. È un wrapper .NET per tesseract-ocr e può essere utilizzato in un'ampia gamma di applicazioni, dalla scansione di documenti e l'estrazione di dati al riconoscimento e traduzione automatizzati di immagini.
Tesseract è stato originariamente sviluppato negli anni '80 da Hewlett-Packard e successivamente rilasciato come progetto open source nel 2005. Da allora è diventato uno dei motori OCR più utilizzati al mondo, con supporto per Unicode (UTF -8), oltre 100 lingue e la capacità di elaborare un'ampia gamma di formati di immagine. Ci sono varie funzionalità che fanno parte dell'API come la scansione di documenti, la digitalizzazione di documenti, la creazione di documenti ricercabili, la creazione di documenti leggibili dalla macchina, l'ottimizzazione delle prestazioni OCR e molto altro.
Tesseract è molto facile da gestire ed è progettato per riconoscere il testo all'interno delle immagini digitali in un'ampia gamma di formati immagine, come JPEG, BMP, PSD, PNG, TIFF e molti altri. La libreria è altamente personalizzabile, con un'ampia gamma di opzioni che possono essere utilizzate per ottimizzare le prestazioni dell'OCR per diversi tipi di immagini e testo. Che tu stia lavorando sulla scansione e la digitalizzazione di documenti, sull'estrazione di dati o sul riconoscimento e la traduzione di immagini, Tesseract offre una soluzione potente e affidabile che può aiutarti a raggiungere i tuoi obiettivi in modo rapido e semplice.
Iniziare con Tesseract
Il modo consigliato per installare Tesseract è utilizzare NuGet. Si prega di utilizzare il seguente comando per un'installazione fluida.
Installa Tesseract tramite NuGet
Install-Package Tesseract
Installa Tesseract tramite GitHub
git clone https://github.com/charlesw/tesseract.git
Estrai testo di base da un'immagine tramite C#
La libreria C# open source Tesseract consente agli sviluppatori di software di estrarre testo da un'immagine all'interno delle proprie applicazioni .NET. La libreria consente agli sviluppatori di software di recuperare facilmente il contenuto testuale di documenti o immagini scansionati e di utilizzarlo per ulteriori elaborazioni o analisi. Per portare a termine l'attività, gli sviluppatori devono prima importare lo spazio dei nomi Tesseract nel file di codice e creare un'istanza del motore Tesseract. L'esempio seguente mostra come estrarre il testo di base dall'immagine e inviarlo alla console.
Come estrarre il testo di base dall'immagine tramite l'API C#?
using Tesseract;
using System.Drawing;
namespace MyNamespace
{
class Program
{
static void Main(string[] args)
{
var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
var image = new Bitmap(@"C:\path\to\your\image.jpg");
var page = engine.Process(image);
var text = page.GetText();
image.Dispose();
page.Dispose();
engine.Dispose();
Console.WriteLine(text);
}
}
}
Converti immagine in PDF ricercabile tramite C# .NET
La libreria C# open source Tesseract ha incluso alcune funzionalità utili per convertire le immagini in documenti PDF ricercabili utilizzando il codice C#. La libreria include anche il supporto per vari formati di output, come testo semplice, hOCR (HTML), PDF, PDF di solo testo invisibile, TSV, ALTO e molti altri. Ricorda che per ottenere risultati OCR migliori, lo sviluppatore deve migliorare la qualità delle immagini che fornirà a Tesseract. L'esempio seguente mostra come creare un documento PDF ricercabile contenente il testo riconosciuto dall'immagine.
Come convertire un'immagine in PDF ricercabile utilizzando C# .NET
using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
{
using (var img = Pix.LoadFromFile(testImagePath))
{
using (var page = engine.Process(img))
{
var text = page.GetText();
Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());
Console.WriteLine("Text (GetText): \r\n{0}", text);
Console.WriteLine("Text (iterator):");
}
}
}
FORMAT_PLAINTEXT);