画像に対する OCR 操作のためのオープンソース PHP ライブラリ
Tesseract PHP ライブラリを使用して画像、スキャンされたドキュメント、PDF に対して OCR 操作を実行するための無料の PHP 光学式文字認識 API。
利用可能な多数の OCR ツールの中でも、Tesseract OCR は、ソフトウェア開発者がさまざまな一般的なビジュアル ソースからテキストを認識して抽出するためのアプリケーションを作成できるようにする、最も強力で多用途な API の 1 つとして際立っています。 Tesseract OCR for PHP は、PHP アプリケーション内で Tesseract OCR を操作するための非常に便利なラッパーです。 オープンソースの Tesseract OCR for PHP ライブラリは、画像を前処理することで OCR の精度を高めることができます。 サイズ変更、二値化、ノイズ除去、デスキューなどの技術を適用して、テキストの視認性を高め、認識を妨げる可能性のあるアーティファクトを除去できます。
PHP ライブラリ用 Tesseract OCR は、多言語ドキュメントの処理、特定言語の精度を向上させるための OCR 初期化中の目的の言語の指定、ページ セグメンテーション モードのサポートなど、PHP アプリケーション内の OCR 結果を強化するためのいくつかの高度な機能とカスタマイズ オプションを提供します。 特殊なアプリケーションの認識精度の向上、カスタム フォントや記号、特定のテキスト パターンのトレーニング サポート、アクセシビリティの強化、ドキュメントのデジタル化、テキスト分析、データ抽出など。
Tesseract PHP ラッパーを利用して、前処理された画像を Tesseract OCR エンジンに渡します。 ラッパーは、OCR を実行し、結果として認識されたテキストを取得する関数を提供します。 抽出されたテキストには、スペルチェック、書式設定、言語固有の変更など、追加の後処理手順が必要になる場合があります。 Symfony/string や Text_LanguageDetect などの PHP ライブラリは、これらの目的に使用できます。 Tesseract OCR を PHP プロジェクトに統合することで、ソフトウェア開発者はドキュメント処理を合理化し、データ抽出を自動化し、アプリケーションの効率性とアクセシビリティを新たなレベルに引き上げることができます。
PHP 用 Tesseract OCR 入門
Tesseract OCR for PHP をインストールする推奨方法は、Composer を使用することです。 スムーズにインストールするには、次のコマンドを使用してください。
Composer 経由で Tesseract OCR for PHP をインストールする
$ composer require thiagoalessio/tesseract_ocr
Github 経由で Tesseract OCR for PHP をインストールします
git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git
コンパイルされた共有ライブラリは、Github リポジトリからダウンロードできます。
PHP アプリ内の画像からテキストを抽出
オープンソースの Tesseract OCR for PHP ライブラリは、PHP コマンドを使用して画像からテキストを抽出するための便利な機能をいくつか提供しています。 このライブラリは、さまざまなレイアウトやテキスト配置を処理するためのさまざまなページ分割モードを提供します。 抽出するテキストを含む画像またはドキュメントをロードして、抽出プロセスを開始します。 Tesseract PHP ラッパーを利用して、前処理された画像を Tesseract OCR エンジンに渡します。 ラッパーは、OCR を実行し、結果として認識されたテキストを取得する関数を提供します。 次の例は、PHP コマンドを使用して画像をロードし、そこからテキストを抽出する基本的なプロセスを示しています。
PHP コードを使用して画像をロードし、テキストを抽出する方法
use TesseractOCR\TesseractOCR;
$imagePath = '/path/to/your/image.jpg';
$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition
$text = $tesseract->run();
echo $text;
PHP アプリ内での OCR 出力の処理
オープンソースの Tesseract OCR for PHP ライブラリには、PHP アプリケーション内で OCR の出力テキストを保存して操作するための非常に便利な機能が含まれています。 PDF、TXT、HTML、Word などの一般的な形式で出力テキストを保存できます。 画像から抽出された認識されたテキストを処理できるようになります。 アプリケーションの要件によっては、抽出されたテキストをさらに処理または分析する必要がある場合があります。 一般的なタスクには、データ検証、テキスト クリーニング、スペル チェック、書式設定、高度な処理や言語固有の変更のための他のシステムとの統合などが含まれます。 ソフトウェア開発者は、ドキュメント、ソーシャル メディア フィード、顧客のフィードバックから抽出された大量のテキスト データを簡単に分析して、洞察、感情分析、トピック モデリングを導き出すことができます。
PHP API 経由で画像データを取得し、サイズを調整し、PDF 形式で保存します
//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();
$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();
// Save the Output to PDF file
echo (new TesseractOCR('img.png'))
->configFile('pdf')
->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
->run();