画像に対する OCR 操作のためのオープンソース PHP ライブラリ

Tesseract PHP ライブラリを使用して画像、スキャンされたドキュメント、PDF に対して OCR 操作を実行するための無料の PHP 光学式文字認識 API。

利用可能な多数の OCR ツールの中でも、Tesseract OCR は、ソフトウェア開発者がさまざまな一般的なビジュアルソースからテキストを認識して抽出するためのアプリケーションを作成できるようにする、最も強力で多用途な API の 1 つとして際立っています。 Tesseract OCR for PHP は、PHP アプリケーション内で Tesseract OCR を操作するための非常に便利なラッパーです。オープンソースの Tesseract OCR for PHP ライブラリは、画像を前処理することで OCR の精度を高めることができます。サイズ変更、二値化、ノイズ除去、デスキューなどの技術を適用して、テキストの視認性を高め、認識を妨げる可能性のあるアーティファクトを除去できます。

PHP ライブラリ用 Tesseract OCR は、多言語ドキュメントの処理、特定言語の精度を向上させるための OCR 初期化中の目的の言語の指定、ページセグメンテーションモードのサポートなど、PHP アプリケーション内の OCR 結果を強化するためのいくつかの高度な機能とカスタマイズオプションを提供します。特殊なアプリケーションの認識精度の向上、カスタムフォントや記号、特定のテキストパターンのトレーニングサポート、アクセシビリティの強化、ドキュメントのデジタル化、テキスト分析、データ抽出など。

Tesseract PHP ラッパーを利用して、前処理された画像を Tesseract OCR エンジンに渡します。ラッパーは、OCR を実行し、結果として認識されたテキストを取得する関数を提供します。抽出されたテキストには、スペルチェック、書式設定、言語固有の変更など、追加の後処理手順が必要になる場合があります。 Symfony/string や Text_LanguageDetect などの PHP ライブラリは、これらの目的に使用できます。 Tesseract OCR を PHP プロジェクトに統合することで、ソフトウェア開発者はドキュメント処理を合理化し、データ抽出を自動化し、アプリケーションの効率性とアクセシビリティを新たなレベルに引き上げることができます。

概要

Tesseract OCR for PHP 機能の概要。

機能の概要

OCR を実行する
OCR 機能を追加する
画像テキストを認識する
テキストの画像を変換する
認識されたフォントテキスト
PDF を検索
他の言語
OCR アプリを作成する
ブラウザに保存
テキストの抽出
マルチスレッドのサポート

Tesseract OCR for PHP

Tesseract OCR for PHP は、以下に示す一般的な圧縮ファイル形式をサポートしています。

読者

PNG, JPEG, BMP, TIFF, TGA, DICOM

ライター

PNG, JPEG, BMP, TIFF

Tesseract OCR for PHP

プラットフォームの独立性

Tesseract OCR for PHP には PHP ランタイムのみが必要です。

PHP 5.1 以降

Tesseract OCR for PHP

PHP 用 Tesseract OCR 入門

Tesseract OCR for PHP をインストールする推奨方法は、Composer を使用することです。スムーズにインストールするには、次のコマンドを使用してください。

Composer 経由で Tesseract OCR for PHP をインストールする

$ composer require thiagoalessio/tesseract_ocr

Github 経由で Tesseract OCR for PHP をインストールします

git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git

コンパイルされた共有ライブラリは、Github リポジトリからダウンロードできます。

PHP アプリ内の画像からテキストを抽出

オープンソースの Tesseract OCR for PHP ライブラリは、PHP コマンドを使用して画像からテキストを抽出するための便利な機能をいくつか提供しています。このライブラリは、さまざまなレイアウトやテキスト配置を処理するためのさまざまなページ分割モードを提供します。抽出するテキストを含む画像またはドキュメントをロードして、抽出プロセスを開始します。 Tesseract PHP ラッパーを利用して、前処理された画像を Tesseract OCR エンジンに渡します。ラッパーは、OCR を実行し、結果として認識されたテキストを取得する関数を提供します。次の例は、PHP コマンドを使用して画像をロードし、そこからテキストを抽出する基本的なプロセスを示しています。

PHP コードを使用して画像をロードし、テキストを抽出する方法

use TesseractOCR\TesseractOCR;

$imagePath = '/path/to/your/image.jpg';

$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition

$text = $tesseract->run();
echo $text;

PHP アプリ内での OCR 出力の処理

オープンソースの Tesseract OCR for PHP ライブラリには、PHP アプリケーション内で OCR の出力テキストを保存して操作するための非常に便利な機能が含まれています。 PDF、TXT、HTML、Word などの一般的な形式で出力テキストを保存できます。画像から抽出された認識されたテキストを処理できるようになります。アプリケーションの要件によっては、抽出されたテキストをさらに処理または分析する必要がある場合があります。一般的なタスクには、データ検証、テキストクリーニング、スペルチェック、書式設定、高度な処理や言語固有の変更のための他のシステムとの統合などが含まれます。ソフトウェア開発者は、ドキュメント、ソーシャルメディアフィード、顧客のフィードバックから抽出された大量のテキストデータを簡単に分析して、洞察、感情分析、トピックモデリングを導き出すことができます。

PHP API 経由で画像データを取得し、サイズを調整し、PDF 形式で保存します

//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();

$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();


// Save the Output to PDF file

echo (new TesseractOCR('img.png'))
    ->configFile('pdf')
    ->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
    ->run();