1. Продукти
  2.   OCR
  3.   .NET
  4.   Tesseract
 
  

.NET API с отворен код за OCR за обработка на текст и изображения

.NET API за оптично разпознаване на символи (OCR) с отворен код, използван за конвертиране на изображения (сканирани изображения и PDF файлове), съдържащи текст, в машинно четим текст.

Tesseract е много мощна машина за оптично разпознаване на знаци (OCR) с отворен код, която позволява на разработчиците на софтуер да конвертират различни видове изображения, съдържащи текст, в машинно четим текст в приложения на Python. Технологията с отворен код революционизира начина, по който разработчиците на софтуер изграждат своите приложения, като им улеснява достъпа и интегрирането на мощни инструменти и библиотеки в техните приложения. Това е .NET обвивка за tesseract-ocr и може да се използва в широк набор от приложения, от сканиране на документи и извличане на данни до автоматизирано разпознаване и превод на изображения.

Tesseract първоначално е разработен през 80-те години на миналия век от Hewlett-Packard и по-късно е пуснат като проект с отворен код през 2005 г. Оттогава той се превърна в една от най-широко използваните OCR машини в света с поддръжка на Unicode (UTF -8), над 100 езика и възможност за обработка на широка гама от формати на изображения. Има различни функции, част от API, като сканиране на документи, дигитализация на документи, правене на документи достъпни за търсене, създаване на машинно четими документи, оптимизиране на производителността на OCR и много други.

Tesseract е много лесен за работа и е проектиран да разпознава текст в цифрови изображения в широка гама от графични формати, като JPEG, BMP, PSD, PNG, TIFF и много други. Библиотеката е много адаптивна, с широк набор от опции, които могат да се използват за оптимизиране на производителността на OCR за различни типове изображения и текст. Независимо дали работите върху сканиране и дигитализация на документи, извличане на данни или разпознаване и превод на изображения, Tesseract предлага мощно и надеждно решение, което може да ви помогне да постигнете целите си бързо и лесно.

Previous Next

Първи стъпки с Tesseract

Препоръчителният начин за инсталиране на Tesseract е използването на NuGet. Моля, използвайте следната команда за гладка инсталация.

Инсталирайте Tesseract чрез NuGet

 Install-Package Tesseract 

Инсталирайте Tesseract чрез GitHub

 git clone https://github.com/charlesw/tesseract.git 

Извличане на основен текст от изображение чрез C#

C# библиотеката с отворен код Tesseract позволява на разработчиците на софтуер да извличат текст от изображение в техните собствени .NET приложения. Библиотеката улеснява разработчиците на софтуер лесно да извличат текстовото съдържание на сканирани документи или изображения и да го използват за по-нататъшна обработка или анализ. За да постигнат задачата, първо разработчиците трябва да импортират пространството от имена на Tesseract във вашия кодов файл и да създадат екземпляр на двигателя на Tesseract. Следващият пример показва как да извлечете основния текст от изображението и да го изведете в конзолата.

Как да извлечете основния текст от изображение чрез C# API?

using Tesseract;
using System.Drawing;

namespace MyNamespace
{
    class Program
    {
        static void Main(string[] args)
        {
            var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
            var image = new Bitmap(@"C:\path\to\your\image.jpg");
            var page = engine.Process(image);
            var text = page.GetText();
            image.Dispose();
            page.Dispose();
            engine.Dispose();
            Console.WriteLine(text);
        }
    }
}

Конвертиране на изображение в PDF с възможност за търсене чрез C# .NET

C# библиотеката с отворен код Tesseract включва някои полезни функции за конвертиране на изображения в PDF документи с възможност за търсене с помощта на C# код. Библиотеката също така включва поддръжка за различни изходни формати, като обикновен текст, hOCR (HTML), PDF, PDF само с невидим текст, TSV, ALTO и много други. Моля, не забравяйте, че за да получите по-добри резултати от OCR, разработчиците трябва да подобрят качеството на изображенията, които ще предоставят на Tesseract. Следващият пример показва как да създадете PDF документ с възможност за търсене, съдържащ разпознатия текст от изображението.

Как да конвертирате изображение в PDF с възможност за търсене с помощта на C# .NET

using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
    {
        using (var img = Pix.LoadFromFile(testImagePath))
        {
            using (var page = engine.Process(img))
            {
                var text = page.GetText();
                Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());

                Console.WriteLine("Text (GetText): \r\n{0}", text);
                Console.WriteLine("Text (iterator):");
                }
        }
    }
FORMAT_PLAINTEXT);
 Български