Open Source .NET API สำหรับ OCR เพื่อประมวลผลข้อความและรูปภาพ
Open Source .NET Optical Character Recognition (OCR) API ที่ใช้ในการแปลงรูปภาพ (รูปภาพที่สแกนและไฟล์ PDF) ที่มีข้อความเป็นข้อความที่เครื่องอ่านได้
Tesseract คือกลไกการรู้จำอักขระด้วยแสง (OCR) แบบโอเพ่นซอร์สที่ทรงพลังมาก ซึ่งช่วยให้นักพัฒนาซอฟต์แวร์สามารถแปลงรูปภาพประเภทต่างๆ ที่มีข้อความเป็นข้อความที่เครื่องอ่านได้ภายในแอปพลิเคชัน Python เทคโนโลยีโอเพ่นซอร์สได้ปฏิวัติวิธีที่นักพัฒนาซอฟต์แวร์สร้างแอปพลิเคชันของตนโดยช่วยให้พวกเขาเข้าถึงและรวมเครื่องมือและไลบรารีอันทรงพลังภายในแอปพลิเคชันของตนได้ง่ายขึ้น โดยเป็น .NET wrapper สำหรับ tesseract-ocr และสามารถใช้งานได้หลากหลาย ตั้งแต่การสแกนเอกสารและการดึงข้อมูล ไปจนถึงการจดจำและการแปลรูปภาพอัตโนมัติ
Tesseract ได้รับการพัฒนาครั้งแรกในช่วงทศวรรษ 1980 โดย Hewlett-Packard และต่อมาได้เปิดตัวเป็นโครงการโอเพ่นซอร์สในปี 2005 นับตั้งแต่นั้นเป็นต้นมา Tesseract ได้กลายเป็นหนึ่งในกลไก OCR ที่ใช้กันอย่างแพร่หลายมากที่สุดในโลก พร้อมรองรับ Unicode (UTF) -8) มากกว่า 100 ภาษา และความสามารถในการประมวลผลรูปแบบภาพที่หลากหลาย API มีฟีเจอร์ต่างๆ มากมาย เช่น การสแกนเอกสาร การแปลงเอกสารเป็นดิจิทัล ทำให้เอกสารสามารถค้นหาได้ การสร้างเอกสารที่เครื่องอ่านได้ การเพิ่มประสิทธิภาพ OCR และอื่นๆ อีกมากมาย
Tesseract จัดการได้ง่ายมากและได้รับการออกแบบมาให้จดจำข้อความภายในภาพดิจิทัลในรูปแบบภาพที่หลากหลาย เช่น JPEG, BMP, PSD, PNG, TIFF และอื่นๆ อีกมากมาย ไลบรารีสามารถปรับแต่งได้สูง โดยมีตัวเลือกมากมายที่สามารถใช้เพื่อเพิ่มประสิทธิภาพ OCR สำหรับรูปภาพและข้อความประเภทต่างๆ ไม่ว่าคุณจะทำงานเกี่ยวกับการสแกนเอกสารและการแปลงเป็นดิจิทัล การแยกข้อมูล หรือการจดจำและการแปลรูปภาพ Tesseract นำเสนอโซลูชันที่ทรงพลังและเชื่อถือได้ ซึ่งสามารถช่วยให้คุณบรรลุเป้าหมายได้อย่างรวดเร็วและง่ายดาย
เริ่มต้นใช้งาน Tesseract
วิธีที่แนะนำในการติดตั้ง Tesseract คือการใช้ NuGet โปรดใช้คำสั่งต่อไปนี้เพื่อการติดตั้งที่ราบรื่น
ติดตั้ง Tesseract ผ่าน NuGet
Install-Package Tesseract
ติดตั้ง Tesseract ผ่าน GitHub
git clone https://github.com/charlesw/tesseract.git
แยกข้อความพื้นฐานออกจากรูปภาพด้วย C#
Tesseract ไลบรารีโอเพ่นซอร์ส C# ช่วยให้นักพัฒนาซอฟต์แวร์สามารถดึงข้อความจากรูปภาพภายในแอปพลิเคชัน .NET ของตนเองได้ ไลบรารีช่วยให้นักพัฒนาซอฟต์แวร์สามารถดึงเนื้อหาข้อความของเอกสารหรือรูปภาพที่สแกนได้อย่างง่ายดาย และใช้สำหรับการประมวลผลหรือการวิเคราะห์เพิ่มเติม เพื่อให้บรรลุภารกิจ ขั้นแรกนักพัฒนาจำเป็นต้องนำเข้าเนมสเปซ Tesseract ในไฟล์โค้ดของคุณ และสร้างอินสแตนซ์ของกลไก Tesseract ตัวอย่างต่อไปนี้แสดงวิธีการแยกข้อความพื้นฐานออกจากรูปภาพและส่งออกไปยังคอนโซล
จะแยกข้อความพื้นฐานจากรูปภาพผ่าน C# API ได้อย่างไร
using Tesseract;
using System.Drawing;
namespace MyNamespace
{
class Program
{
static void Main(string[] args)
{
var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
var image = new Bitmap(@"C:\path\to\your\image.jpg");
var page = engine.Process(image);
var text = page.GetText();
image.Dispose();
page.Dispose();
engine.Dispose();
Console.WriteLine(text);
}
}
}
แปลงรูปภาพเป็น PDF ที่ค้นหาได้ผ่าน C# .NET
ไลบรารี C# แบบโอเพ่นซอร์ส Tesseract ได้รวมคุณสมบัติที่เป็นประโยชน์บางประการสำหรับการแปลงรูปภาพเป็นเอกสาร PDF ที่สามารถค้นหาได้โดยใช้โค้ด C# ไลบรารียังรวมการรองรับรูปแบบเอาต์พุตต่างๆ เช่น ข้อความธรรมดา, hOCR (HTML), PDF, PDF แบบข้อความเท่านั้นที่มองไม่เห็น, TSV, ALTO และอื่นๆ อีกมากมาย โปรดจำไว้ว่าเพื่อให้ได้ผลลัพธ์ OCR ที่ดีขึ้น นักพัฒนาจำเป็นต้องปรับปรุงคุณภาพของภาพที่พวกเขาจะมอบให้กับ Tesseract ตัวอย่างต่อไปนี้แสดงวิธีสร้างเอกสาร PDF ที่สามารถค้นหาได้ซึ่งมีข้อความที่รู้จักจากรูปภาพ
วิธีแปลงรูปภาพเป็น PDF ที่ค้นหาได้โดยใช้ C# .NET
using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
{
using (var img = Pix.LoadFromFile(testImagePath))
{
using (var page = engine.Process(img))
{
var text = page.GetText();
Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());
Console.WriteLine("Text (GetText): \r\n{0}", text);
Console.WriteLine("Text (iterator):");
}
}
}
FORMAT_PLAINTEXT);