API .NET Open Source pour OCR pour traiter le texte et les images

API de reconnaissance optique de caractères (OCR) Open Source .NET utilisée pour convertir des images (images numérisées et fichiers PDF) contenant du texte en texte lisible par machine.

Tesseract est un moteur de reconnaissance optique de caractères (OCR) open source très puissant qui permet aux développeurs de logiciels de convertir différents types d'images contenant du texte en texte lisible par machine dans des applications Python. La technologie open source a révolutionné la façon dont les développeurs de logiciels créent leurs applications en leur facilitant l'accès et l'intégration de puissants outils et bibliothèques dans leurs applications. Il s'agit d'un wrapper .NET pour tesseract-ocr et peut être utilisé dans un large éventail d'applications, de la numérisation de documents et de l'extraction de données à la reconnaissance et à la traduction automatisées d'images.

Tesseract a été développé à l'origine dans les années 1980 par Hewlett-Packard et a ensuite été publié en tant que projet open source en 2005. Depuis lors, il est devenu l'un des moteurs OCR les plus utilisés au monde, avec la prise en charge d'Unicode (UTF -8), plus de 100 langues et la possibilité de traiter une large gamme de formats d'image. L'API comporte diverses fonctionnalités, telles que la numérisation de documents, la numérisation de documents, la possibilité de rechercher des documents, la création de documents lisibles par machine, l'optimisation des performances OCR et bien d'autres encore.

Tesseract est très simple à gérer et est conçu pour reconnaître le texte des images numériques dans un large éventail de formats d'image, tels que JPEG, BMP, PSD, PNG, TIFF et bien d'autres. La bibliothèque est hautement personnalisable, avec une large gamme d'options qui peuvent être utilisées pour optimiser les performances OCR pour différents types d'images et de texte. Que vous travailliez sur la numérisation et la numérisation de documents, l'extraction de données ou la reconnaissance et la traduction d'images, Tesseract offre une solution puissante et fiable qui peut vous aider à atteindre vos objectifs rapidement et facilement.

En un coup d'œil

Un aperçu des fonctionnalités de Tesseract.

Présentation des fonctionnalités

Effectuer l'OCR
Ajouter des fonctionnalités OCR
Reconnaître le texte de l'image
Convertir des images de texte
Texte de police reconnu
Rechercher un PDF
Plus de 100 langues
Créer des applications OCR
Enregistrer dans le navigateur
Extraire le texte
Support multithread

Tesseract

Tesseract prend en charge les formats de fichiers image populaires répertoriés ci-dessous.

Lecteur

PNG, JPEG, BMP, TIFF, TGA, DICOM

Écrivain

PNG, JPEG, BMP, TIFF

Tesseract

Indépendance de la plateforme

Tesseract peut fonctionner avec n'importe quel langage de programmation .NET

.NET Framework 4.8

Tesseract

Premiers pas avec Tesseract

La méthode recommandée pour installer Tesseract consiste à utiliser NuGet. Veuillez utiliser la commande suivante pour une installation fluide.

Installer Tesseract via NuGet

 Install-Package Tesseract

Installer Tesseract via GitHub

 git clone https://github.com/charlesw/tesseract.git

Extraire le texte de base d'une image via C#

La bibliothèque C# open source Tesseract permet aux développeurs de logiciels d'extraire le texte d'une image dans leurs propres applications .NET. La bibliothèque permet aux développeurs de logiciels de récupérer facilement le contenu textuel des documents ou des images numérisés et de l'utiliser pour un traitement ou une analyse ultérieurs. Pour accomplir cette tâche, les développeurs doivent d'abord importer l'espace de noms Tesseract dans votre fichier de code et créer une instance du moteur Tesseract. L'exemple suivant montre comment extraire le texte de base de l'image et l'afficher sur la console.

Comment extraire le texte de base d'une image via l'API C# ?

using Tesseract;
using System.Drawing;

namespace MyNamespace
{
    class Program
    {
        static void Main(string[] args)
        {
            var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
            var image = new Bitmap(@"C:\path\to\your\image.jpg");
            var page = engine.Process(image);
            var text = page.GetText();
            image.Dispose();
            page.Dispose();
            engine.Dispose();
            Console.WriteLine(text);
        }
    }
}

Convertir l'image en PDF consultable via C# .NET

La bibliothèque C# open source Tesseract inclut des fonctionnalités utiles pour convertir des images en documents PDF consultables à l'aide du code C#. La bibliothèque prend également en charge divers formats de sortie, tels que le texte brut, hOCR (HTML), PDF, PDF en texte invisible uniquement, TSV, ALTO et bien d'autres. N'oubliez pas que pour obtenir de meilleurs résultats OCR, les développeurs doivent améliorer la qualité des images qu'ils vont fournir à Tesseract. L'exemple suivant montre comment créer un document PDF consultable contenant le texte reconnu à partir de l'image.

Comment convertir une image en PDF consultable à l'aide de C# .NET

using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
    {
        using (var img = Pix.LoadFromFile(testImagePath))
        {
            using (var page = engine.Process(img))
            {
                var text = page.GetText();
                Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());

                Console.WriteLine("Text (GetText): \r\n{0}", text);
                Console.WriteLine("Text (iterator):");
                }
        }
    }
FORMAT_PLAINTEXT);