テキストと画像を処理する OCR 用のオープンソース .NET API

オープンソースの .NET 光学式文字認識 (OCR) API は、テキストを含む画像 (スキャン画像および PDF ファイル) を機械可読テキストに変換するために使用されます。

Tesseract は、非常に強力なオープンソースの光学式文字認識 (OCR) エンジンで、ソフトウェア開発者がテキストを含むさまざまな種類の画像を Python アプリケーション内で機械可読テキストに変換できるようにします。オープンソーステクノロジーは、ソフトウェア開発者がアプリケーション内の強力なツールやライブラリに簡単にアクセスして統合できるようにすることで、ソフトウェア開発者がアプリケーションを構築する方法に革命をもたらしました。これは tesseract-ocr の .NET ラッパーであり、ドキュメントのスキャンやデータ抽出から自動画像認識や翻訳まで、幅広いアプリケーションで使用できます。

Tesseract は、もともと 1980 年代に Hewlett-Packard によって開発され、その後 2005 年にオープンソースプロジェクトとしてリリースされました。それ以来、Unicode (UTF) をサポートし、世界で最も広く使用されている OCR エンジンの 1 つになりました。 -8)、100 以上の言語、および幅広い画像形式を処理する機能。 API には、ドキュメントのスキャン、ドキュメントのデジタル化、ドキュメントの検索可能化、機械可読ドキュメントの作成、OCR パフォーマンスの最適化など、さまざまな機能が含まれています。

Tesseract は非常に扱いやすく、JPEG、BMP、PSD、PNG、TIFF などの幅広い画像形式のデジタル画像内のテキストを認識するように設計されています。このライブラリは高度にカスタマイズ可能であり、さまざまな種類の画像やテキストの OCR パフォーマンスを最適化するために使用できる幅広いオプションを備えています。ドキュメントのスキャンとデジタル化、データ抽出、画像認識と翻訳のいずれに取り組んでいる場合でも、Tesseract は、目標を迅速かつ簡単に達成できる強力で信頼性の高いソリューションを提供します。

概要

Tesseract の機能の概要。

機能の概要

OCR を実行する
OCR 機能を追加する
画像テキストを認識する
テキストの画像を変換する
認識されたフォントテキスト
PDF を検索
100 以上の言語
OCR アプリを作成する
ブラウザに保存
テキストの抽出
マルチスレッドのサポート

Tesseract

Tesseract は、以下に示す一般的な画像ファイル形式をサポートしています。

読者

PNG, JPEG, BMP, TIFF, TGA, DICOM

ライター

PNG, JPEG, BMP, TIFF

Tesseract

プラットフォームの独立性

Tesseract は、あらゆる .NET プログラミング言語で動作します

.NET Framework 4.8

Tesseract

Tesseract を使ってみる

Tesseract をインストールする推奨方法は、NuGet を使用することです。スムーズにインストールするには、次のコマンドを使用してください。

NuGet 経由で Tesseract をインストールする

 Install-Package Tesseract

GitHub 経由で Tesseract をインストールする

 git clone https://github.com/charlesw/tesseract.git

C# を使用して画像から基本テキストを抽出する

オープンソースの C# ライブラリ Tesseract を使用すると、ソフトウェア開発者は独自の .NET アプリケーション内の画像からテキストを抽出できます。このライブラリを使用すると、ソフトウェア開発者は、スキャンされたドキュメントまたは画像のテキストコンテンツを簡単に取得し、さらなる処理や分析に使用することができます。このタスクを達成するには、まず開発者がコードファイルに Tesseract 名前空間をインポートし、Tesseract エンジンのインスタンスを作成する必要があります。次の例は、画像から基本テキストを抽出してコンソールに出力する方法を示しています。

C# API 経由で画像から基本テキストを抽出するにはどうすればよいですか?

using Tesseract;
using System.Drawing;

namespace MyNamespace
{
    class Program
    {
        static void Main(string[] args)
        {
            var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
            var image = new Bitmap(@"C:\path\to\your\image.jpg");
            var page = engine.Process(image);
            var text = page.GetText();
            image.Dispose();
            page.Dispose();
            engine.Dispose();
            Console.WriteLine(text);
        }
    }
}

C# .NET 経由で画像を検索可能な PDF に変換

オープンソースの C# ライブラリ Tesseract には、C# コードを使用して画像を検索可能な PDF ドキュメントに変換するための便利な機能がいくつか含まれています。このライブラリには、プレーンテキスト、hOCR (HTML)、PDF、不可視テキストのみの PDF、TSV、ALTO など、さまざまな出力形式のサポートも含まれています。より良い OCR 結果を得るには、開発者が Tesseract に提供する画像の品質を向上させる必要があることに注意してください。次の例は、画像から認識されたテキストを含む検索可能な PDF ドキュメントを作成する方法を示しています。

C# .NET を使用して画像を検索可能な PDF に変換する方法

using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
    {
        using (var img = Pix.LoadFromFile(testImagePath))
        {
            using (var page = engine.Process(img))
            {
                var text = page.GetText();
                Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());

                Console.WriteLine("Text (GetText): \r\n{0}", text);
                Console.WriteLine("Text (iterator):");
                }
        }
    }
FORMAT_PLAINTEXT);