1. Məhsullar
  2.   OCR
  3.   .NET
  4.   Tesseract
 
  

Mətn və Şəkilləri Emal etmək üçün OCR üçün Açıq Mənbə .NET API

Açıq Mənbəli .NET Optik Xarakter Tanınması (OCR) API mətni maşın oxuna bilən mətnə çevirmək üçün istifadə olunur (skan edilmiş şəkillər və PDF faylları).

Tesseract çox güclü açıq mənbəli optik xarakter tanınması (OCR) mühərrikidir ki, bu da proqram tərtibatçılarına mətndən ibarət müxtəlif növ şəkilləri Python proqramlarında maşın tərəfindən oxuna bilən mətnə çevirməyə imkan verir. Açıq mənbə texnologiyası proqram tərtibatçılarının tətbiqləri daxilində güclü alətlər və kitabxanalara daxil olmalarını və inteqrasiyasını asanlaşdırmaqla onların proqramlarını qurma üsullarında inqilab etdi. O, tesseract-ocr üçün .NET paketidir və sənədlərin skan edilməsi və məlumatların çıxarılmasından avtomatlaşdırılmış təsvirin tanınması və tərcüməsinə qədər geniş çeşiddə tətbiqlərdə istifadə edilə bilər.

Tesseract ilk olaraq 1980-ci illərdə Hewlett-Packard tərəfindən hazırlanmış və daha sonra 2005-ci ildə açıq mənbə layihəsi kimi buraxılmışdır. O vaxtdan bəri, Unicode (UTF) dəstəyi ilə dünyada ən çox istifadə edilən OCR mühərriklərindən birinə çevrilmişdir. -8), 100-dən çox dil və geniş çeşidli şəkil formatlarını emal etmək imkanı. Sənədin skan edilməsi, sənədin rəqəmsallaşdırılması, sənədlərin axtarıla bilən edilməsi, maşın tərəfindən oxuna bilən sənədlərin yaradılması, OCR performansının optimallaşdırılması və sair kimi API-nin müxtəlif funksiyaları var.

Tesseract-ı idarə etmək çox asandır və JPEG, BMP, PSD, PNG, TIFF və daha çox kimi geniş diapazonlu şəkil formatlarında rəqəmsal şəkillərin içindəki mətni tanımaq üçün nəzərdə tutulub. Kitabxana yüksək dərəcədə fərdiləşdirilə bilir, müxtəlif növ şəkillər və mətnlər üçün OCR performansını optimallaşdırmaq üçün istifadə edilə bilən geniş seçimlərdir. İstər sənədlərin skan edilməsi və rəqəmsallaşdırılması, istər məlumatların çıxarılması, istərsə də təsvirin tanınması və tərcüməsi üzərində işləyirsinizsə, Tesseract hədəflərinizə tez və asanlıqla nail olmağa kömək edəcək güclü və etibarlı həll təklif edir.

Previous Next

Tesseract ilə işə başlamaq

Tesseract-ı quraşdırmaq üçün tövsiyə olunan yol NuGet-dən istifadə etməkdir. Düzgün quraşdırma üçün aşağıdakı əmrdən istifadə edin.

NuGet vasitəsilə Tesseract quraşdırın

 Install-Package Tesseract 

GitHub vasitəsilə Tesseract quraşdırın

 git clone https://github.com/charlesw/tesseract.git 

C# vasitəsilə Şəkildən Əsas Mətni çıxarın

Açıq mənbəli C# kitabxanası Tesseract proqram tərtibatçılarına öz .NET proqramlarında təsvirdən mətn çıxarmağa imkan verir. Kitabxana proqram tərtibatçılarına skan edilmiş sənədlərin və ya şəkillərin mətn məzmununu asanlıqla əldə etməyi və ondan sonrakı emal və ya təhlil üçün istifadə etməyi asanlaşdırır. Tapşırığı yerinə yetirmək üçün əvvəlcə tərtibatçılar kod faylınızdakı Tesseract ad sahəsini idxal etməli və Tesseract mühərrikinin nümunəsini yaratmalıdırlar. Aşağıdakı nümunə təsvirdən əsas mətnin necə çıxarılacağını və onu konsola necə çıxaracağını göstərir.

C# API vasitəsilə əsas mətni Şəkildən necə çıxarmaq olar?

using Tesseract;
using System.Drawing;

namespace MyNamespace
{
    class Program
    {
        static void Main(string[] args)
        {
            var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
            var image = new Bitmap(@"C:\path\to\your\image.jpg");
            var page = engine.Process(image);
            var text = page.GetText();
            image.Dispose();
            page.Dispose();
            engine.Dispose();
            Console.WriteLine(text);
        }
    }
}

Şəkli C# .NET vasitəsilə Axtarıla bilən PDF-ə çevirin

Açıq mənbəli C# kitabxanası Tesseract C# kodundan istifadə edərək şəkilləri axtarış edilə bilən PDF sənədlərinə çevirmək üçün bəzi faydalı funksiyaları özündə birləşdirir. Kitabxana həmçinin düz mətn, hOCR (HTML), PDF, yalnız görünməz mətn PDF, TSV, ALTO və daha çox kimi müxtəlif çıxış formatları üçün dəstək daxildir. Xahiş edirik unutmayın ki, daha yaxşı OCR nəticələri əldə etmək üçün tərtibatçı Tesseract-a təqdim edəcəkləri şəkillərin keyfiyyətini artırmalıdır. Aşağıdakı nümunə, şəkildən tanınan mətni ehtiva edən axtarış edilə bilən PDF sənədinin necə yaradılacağını göstərir.

C# .NET istifadə edərək Şəkili Axtarıla bilən PDF-ə necə çevirmək olar

using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
    {
        using (var img = Pix.LoadFromFile(testImagePath))
        {
            using (var page = engine.Process(img))
            {
                var text = page.GetText();
                Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());

                Console.WriteLine("Text (GetText): \r\n{0}", text);
                Console.WriteLine("Text (iterator):");
                }
        }
    }
FORMAT_PLAINTEXT);
 Azəri