API .NET de código aberto para OCR para processar texto e imagens
API de reconhecimento óptico de caracteres (OCR) .NET de código aberto usada para converter imagens (imagens digitalizadas e arquivos PDF) contendo texto em texto legível por máquina.
Tesseract é um poderoso mecanismo de reconhecimento óptico de caracteres (OCR) de código aberto que permite aos desenvolvedores de software converter vários tipos de imagens contendo texto em texto legível por máquina dentro de aplicativos Python. A tecnologia de código aberto revolucionou a maneira como os desenvolvedores de software criam seus aplicativos, facilitando o acesso e a integração de ferramentas e bibliotecas poderosas em seus aplicativos. É um wrapper .NET para tesseract-ocr e pode ser usado em uma ampla variedade de aplicações, desde digitalização de documentos e extração de dados até reconhecimento e tradução automatizados de imagens.
O Tesseract foi originalmente desenvolvido na década de 1980 pela Hewlett-Packard e posteriormente lançado como um projeto de código aberto em 2005. Desde então, tornou-se um dos mecanismos de OCR mais utilizados no mundo, com suporte para Unicode (UTF -8), mais de 100 idiomas e capacidade de processar uma ampla variedade de formatos de imagem. Existem vários recursos que fazem parte da API, como digitalização de documentos, digitalização de documentos, tornar documentos pesquisáveis, criar documentos legíveis por máquina, otimizar o desempenho de OCR e muito mais.
O Tesseract é muito fácil de manusear e foi projetado para reconhecer texto em imagens digitais em uma ampla variedade de formatos de imagem, como JPEG, BMP, PSD, PNG, TIFF e muitos mais. A biblioteca é altamente personalizável, com uma ampla gama de opções que podem ser usadas para otimizar o desempenho do OCR para diferentes tipos de imagens e texto. Esteja você trabalhando na digitalização e digitalização de documentos, extração de dados ou reconhecimento e tradução de imagens, o Tesseract oferece uma solução poderosa e confiável que pode ajudá-lo a atingir seus objetivos com rapidez e facilidade.
Introdução ao Tesseract
A maneira recomendada de instalar o Tesseract é usando NuGet. Use o seguinte comando para uma instalação tranquila.
Instalar o Tesseract via NuGet
Install-Package Tesseract
Instale o Tesseract via GitHub
git clone https://github.com/charlesw/tesseract.git
Extrair texto básico de uma imagem via C#
A biblioteca C# de código aberto Tesseract permite que desenvolvedores de software extraiam texto de uma imagem dentro de seus próprios aplicativos .NET. A biblioteca torna mais fácil para os desenvolvedores de software recuperar facilmente o conteúdo de texto de documentos ou imagens digitalizados e usá-lo para processamento ou análise posterior. Para realizar a tarefa, primeiro os desenvolvedores precisam importar o namespace Tesseract em seu arquivo de código e criar uma instância do mecanismo Tesseract. O exemplo a seguir mostra como extrair o texto básico da imagem e enviá-lo para o console.
Como extrair o texto básico da imagem via API C#?
using Tesseract;
using System.Drawing;
namespace MyNamespace
{
class Program
{
static void Main(string[] args)
{
var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
var image = new Bitmap(@"C:\path\to\your\image.jpg");
var page = engine.Process(image);
var text = page.GetText();
image.Dispose();
page.Dispose();
engine.Dispose();
Console.WriteLine(text);
}
}
}
Converter imagem em PDF pesquisável via C# .NET
A biblioteca C# de código aberto Tesseract inclui alguns recursos úteis para converter imagens em documentos PDF pesquisáveis usando código C#. A biblioteca também inclui suporte para vários formatos de saída, como texto simples, hOCR (HTML), PDF, PDF somente texto invisível, TSV, ALTO e muitos mais. Lembre-se de que para obter melhores resultados de OCR, o desenvolvedor precisa melhorar a qualidade das imagens que fornecerá ao Tesseract. O exemplo a seguir mostra como criar um documento PDF pesquisável contendo o texto reconhecido da imagem.
Como converter imagem em PDF pesquisável usando C# .NET
using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
{
using (var img = Pix.LoadFromFile(testImagePath))
{
using (var page = engine.Process(img))
{
var text = page.GetText();
Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());
Console.WriteLine("Text (GetText): \r\n{0}", text);
Console.WriteLine("Text (iterator):");
}
}
}
FORMAT_PLAINTEXT);