1. Productos
  2.   OCR
  3.   .NET
  4.   Tesseract
 
  

API .NET de código abierto para OCR para procesar texto e imágenes

API de reconocimiento óptico de caracteres (OCR) .NET de código abierto que se utiliza para convertir imágenes (imágenes escaneadas y archivos PDF) que contienen texto en texto legible por máquina.

Tesseract es un motor de reconocimiento óptico de caracteres (OCR) de código abierto muy potente que permite a los desarrolladores de software convertir varios tipos de imágenes que contienen texto en texto legible por máquina dentro de aplicaciones Python. La tecnología de código abierto ha revolucionado la forma en que los desarrolladores de software crean sus aplicaciones al facilitarles el acceso y la integración de potentes herramientas y bibliotecas dentro de sus aplicaciones. Es un contenedor .NET para tesseract-ocr y se puede utilizar en una amplia gama de aplicaciones, desde escaneo de documentos y extracción de datos hasta reconocimiento y traducción automatizados de imágenes.

Tesseract fue desarrollado originalmente en la década de 1980 por Hewlett-Packard y luego fue lanzado como un proyecto de código abierto en 2005. Desde entonces, se ha convertido en uno de los motores de OCR más utilizados en el mundo, con soporte para Unicode (UTF -8), más de 100 idiomas y la capacidad de procesar una amplia gama de formatos de imagen. Hay varias funciones que forman parte de la API, como escaneo de documentos, digitalización de documentos, hacer que los documentos se puedan buscar, crear documentos legibles por máquina, optimizar el rendimiento de OCR y muchas más.

Tesseract es muy fácil de manejar y está diseñado para reconocer texto dentro de imágenes digitales en una amplia gama de formatos de imagen, como JPEG, BMP, PSD, PNG, TIFF y muchos más. La biblioteca es altamente personalizable, con una amplia gama de opciones que se pueden utilizar para optimizar el rendimiento de OCR para diferentes tipos de imágenes y texto. Ya sea que esté trabajando en escaneo y digitalización de documentos, extracción de datos o reconocimiento y traducción de imágenes, Tesseract ofrece una solución poderosa y confiable que puede ayudarlo a lograr sus objetivos de manera rápida y sencilla.

Previous Next

Comenzando con Tesseract

La forma recomendada de instalar Tesseract es utilizando NuGet. Utilice el siguiente comando para una instalación sin problemas.

Instalar Tesseract mediante NuGet

 Install-Package Tesseract 

Instalar Tesseract a través de GitHub

 git clone https://github.com/charlesw/tesseract.git 

Extraer texto básico de una imagen mediante C#

La biblioteca C# de código abierto Tesseract permite a los desarrolladores de software extraer texto de una imagen dentro de sus propias aplicaciones .NET. La biblioteca facilita a los desarrolladores de software recuperar fácilmente el contenido de texto de documentos o imágenes escaneados y utilizarlo para su posterior procesamiento o análisis. Para realizar la tarea, primero los desarrolladores deben importar el espacio de nombres de Tesseract en su archivo de código y crear una instancia del motor Tesseract. El siguiente ejemplo muestra cómo extraer el texto básico de la imagen y enviarlo a la consola.

¿Cómo extraer el texto básico de una imagen mediante la API de C#?

using Tesseract;
using System.Drawing;

namespace MyNamespace
{
    class Program
    {
        static void Main(string[] args)
        {
            var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
            var image = new Bitmap(@"C:\path\to\your\image.jpg");
            var page = engine.Process(image);
            var text = page.GetText();
            image.Dispose();
            page.Dispose();
            engine.Dispose();
            Console.WriteLine(text);
        }
    }
}

Convertir imagen a PDF con capacidad de búsqueda mediante C# .NET

La biblioteca C# de código abierto, Tesseract, ha incluido algunas funciones útiles para convertir imágenes en documentos PDF con capacidad de búsqueda utilizando código C#. La biblioteca también incluye soporte para varios formatos de salida, como texto sin formato, hOCR (HTML), PDF, PDF de solo texto invisible, TSV, ALTO y muchos más. Recuerde que para obtener mejores resultados de OCR, los desarrolladores deben mejorar la calidad de las imágenes que proporcionarán a Tesseract. El siguiente ejemplo muestra cómo crear un documento PDF con capacidad de búsqueda que contenga el texto reconocido de la imagen.

Cómo convertir una imagen a un PDF con capacidad de búsqueda usando C# .NET

using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
    {
        using (var img = Pix.LoadFromFile(testImagePath))
        {
            using (var page = engine.Process(img))
            {
                var text = page.GetText();
                Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());

                Console.WriteLine("Text (GetText): \r\n{0}", text);
                Console.WriteLine("Text (iterator):");
                }
        }
    }
FORMAT_PLAINTEXT);
 Español