קוד פתוח .NET API עבור OCR לעיבוד טקסט ותמונות

קוד פתוח .NET זיהוי תווים אופטי (OCR) API המשמש להמרת תמונות (תמונות סרוקות וקובצי PDF) המכילים טקסט לטקסט קריא במכונה.

Tesseract הוא מנוע חזק מאוד לזיהוי תווים אופטי (OCR) בקוד פתוח המאפשר למפתחי תוכנה להמיר סוגים שונים של תמונות המכילות טקסט לטקסט קריא במכונה בתוך יישומי Python. טכנולוגיית הקוד הפתוח חוללה מהפכה באופן שבו מפתחי תוכנה בונים את היישומים שלהם בכך שהקלה עליהם לגשת ולשלב כלים וספריות רבי עוצמה בתוך היישומים שלהם. זהו מעטפת .NET עבור tesseract-ocr וניתן להשתמש בו במגוון רחב של יישומים, מסריקת מסמכים וחילוץ נתונים ועד לזיהוי ותרגום אוטומטי של תמונות.

Tesseract פותחה במקור בשנות ה-80 על ידי Hewlett-Packard ולאחר מכן שוחררה כפרויקט קוד פתוח בשנת 2005. מאז, הוא הפך לאחד ממנועי ה-OCR הנפוצים ביותר בעולם, עם תמיכה ב-Unicode (UTF) -8), מעל 100 שפות, והיכולת לעבד מגוון רחב של פורמטים של תמונה. ישנן תכונות שונות של ממשק ה-API כגון סריקת מסמכים, דיגיטציה של מסמכים, הפיכת מסמכים לניתנים לחיפוש, יצירת מסמכים הניתנים לקריאה במכונה, אופטימיזציה של ביצועי OCR ועוד רבים אחרים.

Tesseract קלה מאוד לטיפול ונועד לזהות טקסט בתוך תמונות דיגיטליות במגוון רחב של פורמטים של תמונה, כגון JPEG, BMP, PSD, PNG, TIFF ועוד רבים. הספרייה ניתנת להתאמה אישית רבה, עם מגוון רחב של אפשרויות שניתן להשתמש בהן כדי לייעל את ביצועי ה-OCR עבור סוגים שונים של תמונות וטקסט. בין אם אתה עובד על סריקת מסמכים ודיגיטציה, חילוץ נתונים או זיהוי ותרגום תמונות, Tesseract מציעה פתרון רב עוצמה ואמין שיכול לעזור לך להשיג את המטרות שלך במהירות ובקלות.

במבט אחד

סקירה כללית של תכונות Tesseract.

סקירת תכונות

בצע OCR
הוסף יכולות OCR
זהה טקסט תמונה
המר תמונות של טקסט
טקסט גופן מזוהה
חפש PDF
מעל 100 שפות
צור אפליקציות OCR
שמור בדפדפן
חלץ טקסט
תמיכה בריבוי-שרשורים

Tesseract

Tesseract תומך בפורמטים פופולריים של קבצי תמונה המפורטים למטה.

קוֹרֵא

PNG, JPEG, BMP, TIFF, TGA, DICOM

סוֹפֵר

PNG, JPEG, BMP, TIFF

Tesseract

עצמאות פלטפורמה

Tesseract יכולה לעבוד עם כל שפת תכנות NET.

.NET Framework 4.8

Tesseract

תחילת העבודה עם Tesseract

הדרך המומלצת להתקין את Tesseract היא באמצעות NuGet. אנא השתמש בפקודה הבאה להתקנה חלקה.

התקן את Tesseract באמצעות NuGet

 Install-Package Tesseract

התקן את Tesseract באמצעות GitHub

 git clone https://github.com/charlesw/tesseract.git

חלץ טקסט בסיסי מתמונה באמצעות C#

ספריית הקוד הפתוח C# Tesseract מאפשרת למפתחי תוכנה לחלץ טקסט מתמונה בתוך יישומי NET משלהם. הספרייה מקלה על מפתחי תוכנה לאחזר בקלות את תוכן הטקסט של מסמכים או תמונות סרוקות, ולהשתמש בו להמשך עיבוד או ניתוח. כדי להשיג את המשימה תחילה מפתחים צריכים לייבא את מרחב השמות של Tesseract לקובץ הקוד שלך וליצור מופע של מנוע Tesseract. הדוגמה הבאה מראה כיצד לחלץ את הטקסט הבסיסי מהתמונה ולהוציא אותו לקונסולה.

כיצד לחלץ את הטקסט הבסיסי מתמונה באמצעות API של C#?

using Tesseract;
using System.Drawing;

namespace MyNamespace
{
    class Program
    {
        static void Main(string[] args)
        {
            var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
            var image = new Bitmap(@"C:\path\to\your\image.jpg");
            var page = engine.Process(image);
            var text = page.GetText();
            image.Dispose();
            page.Dispose();
            engine.Dispose();
            Console.WriteLine(text);
        }
    }
}

המר תמונה ל-PDF הניתן לחיפוש באמצעות C# .NET

ספריית הקוד הפתוח C# Tesseract כללה כמה תכונות שימושיות להמרת תמונות למסמכי PDF הניתנים לחיפוש באמצעות קוד C#. הספרייה כללה גם תמיכה בפורמטים שונים של פלט, כגון טקסט רגיל, hOCR (HTML), PDF, PDF בלתי נראה לטקסט בלבד, TSV, ALTO ועוד רבים. אנא זכרו שכדי לקבל תוצאות OCR טובות יותר, הצורך של המפתחים לשפר את איכות התמונות שהם עומדים לספק ל-Tesseract. הדוגמה הבאה מראה כיצד ליצור מסמך PDF שניתן לחיפוש המכיל את הטקסט המזוהה מהתמונה.

כיצד להמיר תמונה ל-PDF ניתן לחיפוש באמצעות C# .NET

using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
    {
        using (var img = Pix.LoadFromFile(testImagePath))
        {
            using (var page = engine.Process(img))
            {
                var text = page.GetText();
                Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());

                Console.WriteLine("Text (GetText): \r\n{0}", text);
                Console.WriteLine("Text (iterator):");
                }
        }
    }
FORMAT_PLAINTEXT);