1. 产品
  2.   OCR
  3.   PHP
  4.   Tesseract OCR for PHP
 
  

用於影像 OCR 操作的開源 PHP 函式庫

免費的 PHP 光學字元辨識 API,可使用 Tesseract PHP 函式庫對影像、掃描文件和 PDF 執行 OCR 操作。

在眾多可用的OCR 工具中,Tesseract OCR 脫穎而出,成為最強大、最通用的API 之一,使軟體開發人員能夠創建用於從各種流行的視覺源中識別和提取文本的應用程序。 Tesseract OCR for PHP 是一個非常有用的包裝器,可在 PHP 應用程式內使用 Tesseract OCR。開源 Tesseract OCR for PHP 函式庫可以透過對影像進行預處理來提高 OCR 準確性。可以應用調整大小、二值化、雜訊消除和糾偏等技術來增強文字的可見性並消除任何可能妨礙識別的偽影。

Tesseract OCR for PHP 函式庫提供了多種進階功能和自訂選項來增強PHP 應用程式內的OCR 結果,例如處理多語言文件、在OCR 初始化期間指定所需語言以提高特定語言的準確性、頁面分段模式支援、提高專業應用程式的識別準確性、自訂字體或符號或特定文字模式的培訓支援、增強可訪問性、文件數位化、文字分析、資料提取等等。

利用 Tesseract PHP 包裝器將預處理後的影像傳遞給 Tesseract OCR 引擎。包裝器提供執行 OCR 並檢索識別文字作為結果的函數。提取的文字可能需要額外的後處理步驟,例如拼字檢查、格式化或特定於語言的修改。 Symfony/string 或 Text_LanguageDetect 等 PHP 函式庫可用於這些目的。透過將 Tesseract OCR 整合到您的 PHP 專案中,軟體開發人員可以簡化文件處理、自動提取數據,並將應用程式的效率和可訪問性提升到新的水平。

Previous Next

PHP 版 Tesseract OCR 入門

安裝適用於 PHP 的 Tesseract OCR 的建議方法是使用 Composer。為了順利安裝,請使用以下命令。

透過 Composer 安裝適用於 PHP 的 Tesseract OCR

$ composer require thiagoalessio/tesseract_ocr 

透過 Github 安裝適用於 PHP 的 Tesseract OCR

git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git 

您可以從 Github 儲存庫下載編譯的共用程式庫。

從 PHP 應用程式中的映像中提取文字

開源 Tesseract OCR for PHP 函式庫提供了一些有用的功能,可以使用 PHP 命令從圖像中提取文字。該庫提供不同的頁面分割模式來處理各種佈局和文字排列。透過載入包含要提取的文字的圖像或文件來開始提取過程。利用 Tesseract PHP 包裝器將預處理後的影像傳遞給 Tesseract OCR 引擎。包裝器提供執行 OCR 並檢索識別文字作為結果的函數。以下範例顯示了使用 PHP 命令載入圖像並從中提取文字的基本流程。

如何使用 PHP 程式碼載入圖片和擷取文字?
use TesseractOCR\TesseractOCR;

$imagePath = '/path/to/your/image.jpg';

$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition

$text = $tesseract->run();
echo $text;

在 PHP 應用程式內處理 OCR 輸出

用於 PHP 的開源 Tesseract OCR 函式庫包含了一個非常有用的功能,用於在 PHP 應用程式中保存和使用 OCR 的輸出文字。它允許將輸出文字儲存為一些流行的格式,如 PDF、TXT、HTML、Word 等。它允許處理從圖像中提取的已識別文字。根據您的應用程式的要求,您可能需要進一步處理或分析提取的文字。常見任務包括資料驗證、文字清理、拼字檢查、格式化、與其他系統整合以進行高級處理或特定於語言的修改。軟體開發人員可以輕鬆分析從文件、社群媒體來源或客戶回饋中提取的大量文字數據,以獲得見解、情緒分析或主題建模。

透過 PHP API 檢索影像資料、調整大小並以 PDF 格式儲存

//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();

$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();


// Save the Output to PDF file

echo (new TesseractOCR('img.png'))
    ->configFile('pdf')
    ->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
    ->run();

 中国人