テキストと画像を処理する OCR 用のオープンソース .NET API
オープンソースの .NET 光学式文字認識 (OCR) API は、テキストを含む画像 (スキャン画像および PDF ファイル) を機械可読テキストに変換するために使用されます。
Tesseract は、非常に強力なオープンソースの光学式文字認識 (OCR) エンジンで、ソフトウェア開発者がテキストを含むさまざまな種類の画像を Python アプリケーション内で機械可読テキストに変換できるようにします。 オープンソース テクノロジーは、ソフトウェア開発者がアプリケーション内の強力なツールやライブラリに簡単にアクセスして統合できるようにすることで、ソフトウェア開発者がアプリケーションを構築する方法に革命をもたらしました。 これは tesseract-ocr の .NET ラッパーであり、ドキュメントのスキャンやデータ抽出から自動画像認識や翻訳まで、幅広いアプリケーションで使用できます。
Tesseract は、もともと 1980 年代に Hewlett-Packard によって開発され、その後 2005 年にオープンソース プロジェクトとしてリリースされました。それ以来、Unicode (UTF) をサポートし、世界で最も広く使用されている OCR エンジンの 1 つになりました。 -8)、100 以上の言語、および幅広い画像形式を処理する機能。 API には、ドキュメントのスキャン、ドキュメントのデジタル化、ドキュメントの検索可能化、機械可読ドキュメントの作成、OCR パフォーマンスの最適化など、さまざまな機能が含まれています。
Tesseract は非常に扱いやすく、JPEG、BMP、PSD、PNG、TIFF などの幅広い画像形式のデジタル画像内のテキストを認識するように設計されています。 このライブラリは高度にカスタマイズ可能であり、さまざまな種類の画像やテキストの OCR パフォーマンスを最適化するために使用できる幅広いオプションを備えています。 ドキュメントのスキャンとデジタル化、データ抽出、画像認識と翻訳のいずれに取り組んでいる場合でも、Tesseract は、目標を迅速かつ簡単に達成できる強力で信頼性の高いソリューションを提供します。
Tesseract を使ってみる
Tesseract をインストールする推奨方法は、NuGet を使用することです。 スムーズにインストールするには、次のコマンドを使用してください。
NuGet 経由で Tesseract をインストールする
Install-Package Tesseract
GitHub 経由で Tesseract をインストールする
git clone https://github.com/charlesw/tesseract.git
C# を使用して画像から基本テキストを抽出する
オープン ソースの C# ライブラリ Tesseract を使用すると、ソフトウェア開発者は独自の .NET アプリケーション内の画像からテキストを抽出できます。 このライブラリを使用すると、ソフトウェア開発者は、スキャンされたドキュメントまたは画像のテキスト コンテンツを簡単に取得し、さらなる処理や分析に使用することができます。 このタスクを達成するには、まず開発者がコード ファイルに Tesseract 名前空間をインポートし、Tesseract エンジンのインスタンスを作成する必要があります。 次の例は、画像から基本テキストを抽出してコンソールに出力する方法を示しています。
C# API 経由で画像から基本テキストを抽出するにはどうすればよいですか?
using Tesseract;
using System.Drawing;
namespace MyNamespace
{
class Program
{
static void Main(string[] args)
{
var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
var image = new Bitmap(@"C:\path\to\your\image.jpg");
var page = engine.Process(image);
var text = page.GetText();
image.Dispose();
page.Dispose();
engine.Dispose();
Console.WriteLine(text);
}
}
}
C# .NET 経由で画像を検索可能な PDF に変換
オープン ソースの C# ライブラリ Tesseract には、C# コードを使用して画像を検索可能な PDF ドキュメントに変換するための便利な機能がいくつか含まれています。 このライブラリには、プレーン テキスト、hOCR (HTML)、PDF、不可視テキストのみの PDF、TSV、ALTO など、さまざまな出力形式のサポートも含まれています。 より良い OCR 結果を得るには、開発者が Tesseract に提供する画像の品質を向上させる必要があることに注意してください。 次の例は、画像から認識されたテキストを含む検索可能な PDF ドキュメントを作成する方法を示しています。
C# .NET を使用して画像を検索可能な PDF に変換する方法
using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
{
using (var img = Pix.LoadFromFile(testImagePath))
{
using (var page = engine.Process(img))
{
var text = page.GetText();
Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());
Console.WriteLine("Text (GetText): \r\n{0}", text);
Console.WriteLine("Text (iterator):");
}
}
}
FORMAT_PLAINTEXT);