.NET API с открытым исходным кодом для OCR для обработки текста и изображений
API оптического распознавания символов (OCR) .NET с открытым исходным кодом, используемый для преобразования изображений (отсканированных изображений и файлов PDF), содержащих текст, в машиночитаемый текст.
Tesseract — это очень мощный механизм оптического распознавания символов (OCR) с открытым исходным кодом, который позволяет разработчикам программного обеспечения преобразовывать различные типы изображений, содержащих текст, в машиночитаемый текст внутри приложений Python. Технология с открытым исходным кодом произвела революцию в способах создания приложений разработчиками программного обеспечения, упростив им доступ и интеграцию мощных инструментов и библиотек в свои приложения. Это .NET-оболочка для tesseract-ocr, которую можно использовать в широком спектре приложений: от сканирования документов и извлечения данных до автоматического распознавания и перевода изображений.
Tesseract был первоначально разработан в 1980-х годах компанией Hewlett-Packard, а затем выпущен как проект с открытым исходным кодом в 2005 году. С тех пор он стал одним из наиболее широко используемых механизмов оптического распознавания символов в мире с поддержкой Unicode (UTF). -8), более 100 языков и возможность обработки широкого спектра форматов изображений. В состав API входят различные функции, такие как сканирование документов, оцифровка документов, обеспечение возможности поиска документов, создание машиночитаемых документов, оптимизация производительности оптического распознавания символов и многое другое.
Tesseract очень прост в использовании и предназначен для распознавания текста в цифровых изображениях в широком диапазоне форматов изображений, таких как JPEG, BMP, PSD, PNG, TIFF и многих других. Библиотека обладает широкими возможностями настройки и имеет широкий спектр опций, которые можно использовать для оптимизации производительности оптического распознавания символов для различных типов изображений и текста. Независимо от того, работаете ли вы над сканированием и оцифровкой документов, извлечением данных или распознаванием и переводом изображений, Tesseract предлагает мощное и надежное решение, которое поможет вам быстро и легко достичь своих целей.
Начало работы с Tesseract
Рекомендуемый способ установки Tesseract — использование NuGet. Пожалуйста, используйте следующую команду для плавной установки.
Установить Tesseract через NuGet
Install-Package Tesseract
Установите Tesseract через GitHub
git clone https://github.com/charlesw/tesseract.git
Извлечение основного текста из изображения с помощью C#
Библиотека C# с открытым исходным кодом Tesseract позволяет разработчикам программного обеспечения извлекать текст из изображения в своих собственных .NET-приложениях. Библиотека позволяет разработчикам программного обеспечения легко извлекать текстовое содержимое отсканированных документов или изображений и использовать его для дальнейшей обработки или анализа. Для решения этой задачи сначала разработчикам необходимо импортировать пространство имен Tesseract в файл кода и создать экземпляр движка Tesseract. В следующем примере показано, как извлечь основной текст из изображения и вывести его на консоль.
Как извлечь основной текст из изображения с помощью C# API?
using Tesseract;
using System.Drawing;
namespace MyNamespace
{
class Program
{
static void Main(string[] args)
{
var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
var image = new Bitmap(@"C:\path\to\your\image.jpg");
var page = engine.Process(image);
var text = page.GetText();
image.Dispose();
page.Dispose();
engine.Dispose();
Console.WriteLine(text);
}
}
}
Преобразование изображения в PDF с возможностью поиска с помощью C# .NET
Библиотека C# с открытым исходным кодом Tesseract включает в себя несколько полезных функций для преобразования изображений в PDF-документы с возможностью поиска с помощью кода C#. Библиотека также включает поддержку различных форматов вывода, таких как обычный текст, hOCR (HTML), PDF, PDF только с невидимым текстом, TSV, ALTO и многих других. Помните, что для получения лучших результатов оптического распознавания разработчику необходимо улучшить качество изображений, которые они собираются предоставить в Tesseract. В следующем примере показано, как создать PDF-документ с возможностью поиска, содержащий распознанный текст с изображения.
Как преобразовать изображение в PDF с возможностью поиска с помощью C# .NET
using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
{
using (var img = Pix.LoadFromFile(testImagePath))
{
using (var page = engine.Process(img))
{
var text = page.GetText();
Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());
Console.WriteLine("Text (GetText): \r\n{0}", text);
Console.WriteLine("Text (iterator):");
}
}
}
FORMAT_PLAINTEXT);