画像からテキストをロードして抽出するための高度な無料 Ruby ライブラリ
ソフトウェア開発者が画像 (スキャンされた画像と PDF ファイル) からテキストをロード、認識、抽出できるようにする、主要なオープンソース Ruby OCR API および画像からテキストへのコンバーター
光学文字認識 (OCR) は、コンピュータが画像やスキャンされた文書からテキストを認識して抽出できるようにする強力なテクノロジーです。 印刷物のデジタル化からデータ入力プロセスの自動化まで、数多くの用途があります。 Ruby プログラミング言語では、OCR 用の人気のあるライブラリの 1 つが Ruby-Tesseract-OCR です。 Ruby-Tesseract-OCR は、Tesseract OCR エンジンのラッパーとして機能する Ruby gem です。 Tesseract は、Google が開発したオープンソース OCR エンジンで、その精度と言語サポートで有名です。
Ruby-Tesseract-OCR は、基本的な OCR 機能を超え、高度なユースケース向けの追加機能を提供します。 たとえば、ソフトウェア開発者は、画像内の関心領域 (ROI) を指定して、OCR 分析を特定の領域に制限できます。 これは、複雑なドキュメントを扱う場合、または特定のセクションからテキストのみを抽出する必要がある場合に特に便利です。 このライブラリは、既存の画像のロード、画像またはスキャンされたドキュメントからのテキストの抽出、HOCR (HTML OCR) 出力の取得など、OCR 機能を強化するための追加機能をいくつか提供します。
Ruby-Tesseract-OCR gem は、Tesseract エンジンと対話するための使いやすいインターフェイスを提供し、Ruby 開発者が OCR 機能をプロジェクトに簡単に統合できるようにします。 請求書から情報を抽出する必要がある場合でも、印刷物をデジタル化する必要がある場合でも、データ入力タスクを自動化する必要がある場合でも、オープンソース ライブラリは信頼性が高く効率的なソリューションを提供します。 ぜひ試してみて、Ruby プロジェクトにおける OCR の可能性を今すぐ引き出してください。
Ruby-Tesseract-OCR 入門
Ruby-Tesseract-OCR をインストールする推奨方法は、Rubygems を使用することです。 スムーズにインストールするには、次のコマンドを使用してください。
Rubygems 経由で Ruby-Tesseract-OCR をインストールする
gem install tesseract-ocr
コンパイルされた共有ライブラリは、Github リポジトリからダウンロードできます。
Ruby を使用して画像やスキャンしたドキュメントからテキストを抽出
Ruby-Tesseract-OCR は、ソフトウェア開発者がわずか数行の Ruby コードでさまざまなタイプの画像を読み込んでテキストを抽出できるようにする非常に強力なオープンソース ライブラリです。 このライブラリを使用すると、画像、PDF、またはスキャンした文書からテキストを簡単に抽出できます。 一般的なワークフローには、画像のロード、OCR パラメータの設定、テキストを認識するための OCR エンジンの起動が含まれます。 操作を成功させるには、開発者は処理する画像へのパスを指定し、text_for メソッドを呼び出してテキストを抽出する必要があります。 最後に、結果がコンソールに出力されます。 このライブラリは、ページ セグメンテーション モード、ホワイトリスト文字など、OCR の動作を制御するためのさまざまな Fconfiguration オプションを提供します。 次の例は、ソフトウェア開発者が Ruby アプリケーション内で JPEG 画像をロードし、そこからテキストを抽出する方法を示しています。
Ruby コマンドを使用して画像からテキストを抽出する方法
require 'tesseract'
e = Tesseract::Engine.new {|e|
e.language = :eng
e.blacklist = '|'
}
e.text_for('test/first.png').strip # => 'ABC'
Ruby を使用して特定の画像領域からテキストを抽出する
オープンソースの Ruby-Tesseract-OCR ライブラリは、基本的な OCR 機能を超え、高度なユースケース向けの追加機能を提供します。 たとえば、ユーザーは画像内の関心領域 (ROI) を指定して、OCR 分析を特定の領域に制限できます。 これは、複雑なドキュメントを扱う場合、またはユーザーが特定のセクションからテキストのみを抽出する必要がある場合に特に便利です。 さらに、このライブラリは、認識されたテキストだけでなく、テキスト要素のレイアウトと座標に関する情報も含まれる HOCR (HTML OCR) 出力を取得するためのメソッドを提供します。 HOCR 出力は、より詳細なデータが必要な場合、またはテキスト構造についてさらに分析を実行したい場合に役立ちます。
Ruby ライブラリを介してイメージに対して hOCR を実行するにはどうすればよいですか?
require 'tesseract'
e = Tesseract::Engine.new {|e|
e.language = :eng
e.blacklist = '|'
}
puts e.hocr_for('test/first.png')