API منبع باز .NET برای OCR برای پردازش متن و تصاویر
API .NET Optical Character Recognition (OCR) منبع باز که برای تبدیل تصاویر (تصاویر اسکن شده و فایلهای PDF) حاوی متن به متن قابل خواندن توسط ماشین استفاده میشود.
Tesseract یک موتور بسیار قدرتمند تشخیص کاراکتر نوری منبع باز (OCR) است که توسعه دهندگان نرم افزار را قادر می سازد انواع مختلفی از تصاویر حاوی متن را به متن قابل خواندن توسط ماشین در برنامه های پایتون تبدیل کنند. فناوری منبع باز، روشی را که توسعهدهندگان نرمافزار برنامههای خود را میسازند، با آسانتر کردن دسترسی و ادغام ابزارها و کتابخانههای قدرتمند در برنامههایشان، متحول کرده است. این یک بستهبندی داتنت برای tesseract-ocr است و میتواند در طیف گستردهای از برنامهها، از اسکن اسناد و استخراج دادهها گرفته تا تشخیص و ترجمه خودکار تصویر، استفاده شود.
Tesseract ابتدا در دهه 1980 توسط Hewlett-Packard توسعه یافت و بعداً به عنوان یک پروژه منبع باز در سال 2005 منتشر شد. از آن زمان به بعد، با پشتیبانی از Unicode (UTF) به یکی از پرکاربردترین موتورهای OCR در جهان تبدیل شد. -8)، بیش از 100 زبان، و توانایی پردازش طیف گسترده ای از فرمت های تصویر. ویژگیهای مختلفی از API مانند اسکن اسناد، دیجیتالی کردن اسناد، جستجوی اسناد، ایجاد اسناد قابل خواندن توسط ماشین، بهینهسازی عملکرد OCR و بسیاری موارد دیگر وجود دارد.
کار با Tesseract بسیار آسان است و برای تشخیص متن در تصاویر دیجیتال در طیف گسترده ای از فرمت های تصویر مانند JPEG، BMP، PSD، PNG، TIFF و بسیاری موارد دیگر طراحی شده است. این کتابخانه بسیار قابل تنظیم است، با طیف گسترده ای از گزینه ها که می توان از آنها برای بهینه سازی عملکرد OCR برای انواع مختلف تصاویر و متن استفاده کرد. چه در حال کار بر روی اسکن و دیجیتالی کردن اسناد، استخراج داده ها، یا تشخیص و ترجمه تصویر باشید، Tesseract راه حلی قدرتمند و قابل اعتماد ارائه می دهد که می تواند به شما کمک کند تا به سرعت و آسانی به اهداف خود برسید.
شروع به کار با Tesseract
روش توصیه شده برای نصب Tesseract استفاده از NuGet است. لطفا از دستور زیر برای نصب راحت استفاده کنید.
Tesseract را از طریق NuGet نصب کنید
Install-Package Tesseract
Tesseract را از طریق GitHub نصب کنید
git clone https://github.com/charlesw/tesseract.git
استخراج متن اصلی از تصویر از طریق C#
کتابخانه متن باز C# Tesseract به توسعه دهندگان نرم افزار امکان می دهد متن را از یک تصویر در داخل برنامه های NET خود استخراج کنند. این کتابخانه به توسعه دهندگان نرم افزار این امکان را می دهد که به راحتی محتوای متنی اسناد یا تصاویر اسکن شده را بازیابی کنند و از آن برای پردازش یا تجزیه و تحلیل بیشتر استفاده کنند. برای دستیابی به این کار ابتدا توسعه دهندگان باید فضای نام Tesseract را در فایل کد شما وارد کنند و نمونه ای از موتور Tesseract ایجاد کنند. مثال زیر نحوه استخراج متن اصلی از تصویر و خروجی آن را به کنسول نشان می دهد.
چگونه از طریق C# API متن اصلی را از تصویر استخراج کنیم؟
using Tesseract;
using System.Drawing;
namespace MyNamespace
{
class Program
{
static void Main(string[] args)
{
var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
var image = new Bitmap(@"C:\path\to\your\image.jpg");
var page = engine.Process(image);
var text = page.GetText();
image.Dispose();
page.Dispose();
engine.Dispose();
Console.WriteLine(text);
}
}
}
تبدیل تصویر به PDF قابل جستجو از طریق C#.NET
کتابخانه متنباز C# Tesseract دارای ویژگیهای مفیدی برای تبدیل تصاویر به اسناد PDF قابل جستجو با استفاده از کد C# است. این کتابخانه همچنین از فرمتهای خروجی مختلف مانند متن ساده، hOCR (HTML)، PDF، PDF فقط متن نامرئی، TSV، ALTO و بسیاری دیگر پشتیبانی میکند. لطفاً به یاد داشته باشید که برای به دست آوردن نتایج OCR بهتر، توسعه دهندگان باید کیفیت تصاویری را که قرار است در اختیار Tesseract قرار دهند، بهبود بخشند. مثال زیر نحوه ایجاد یک سند PDF قابل جستجو حاوی متن شناسایی شده از تصویر را نشان می دهد.
نحوه تبدیل تصویر به PDF قابل جستجو با استفاده از C#.NET
using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
{
using (var img = Pix.LoadFromFile(testImagePath))
{
using (var page = engine.Process(img))
{
var text = page.GetText();
Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());
Console.WriteLine("Text (GetText): \r\n{0}", text);
Console.WriteLine("Text (iterator):");
}
}
}
FORMAT_PLAINTEXT);