이미지의 OCR 작업을 위한 오픈 소스 PHP 라이브러리
Tesseract PHP 라이브러리를 사용하여 이미지, 스캔한 문서 및 PDF에 대해 OCR 작업을 수행하는 무료 PHP 광학 문자 인식 API.
사용 가능한 수많은 OCR 도구 중에서 Tesseract OCR은 소프트웨어 개발자가 다양한 인기 시각적 소스에서 텍스트를 인식하고 추출하는 애플리케이션을 만들 수 있도록 지원하는 가장 강력하고 다재다능한 API 중 하나로 돋보입니다. PHP용 Tesseract OCR은 PHP 애플리케이션 내에서 Tesseract OCR을 사용하는 데 매우 유용한 래퍼입니다. PHP 라이브러리용 오픈 소스 Tesseract OCR은 이미지를 전처리하여 OCR 정확도를 향상시킬 수 있습니다. 크기 조정, 이진화, 노이즈 제거, 기울기 조정과 같은 기술을 적용하여 텍스트의 가시성을 높이고 인식을 방해할 수 있는 아티팩트를 제거할 수 있습니다.
PHP용 Tesseract OCR 라이브러리는 다국어 문서 처리, 특정 언어의 정확성을 높이기 위해 OCR 초기화 중 원하는 언어 지정, 페이지 분할 모드 지원 등 PHP 애플리케이션 내에서 OCR 결과를 향상시키는 여러 가지 고급 기능과 사용자 정의 옵션을 제공합니다. 특수 애플리케이션에 대한 인식 정확도 향상, 맞춤형 글꼴이나 기호 또는 특정 텍스트 패턴에 대한 교육 지원, 접근성 향상, 문서 디지털화, 텍스트 분석, 데이터 추출 등이 있습니다.
Tesseract PHP 래퍼를 활용하여 전처리된 이미지를 Tesseract OCR 엔진에 전달합니다. 래퍼는 OCR을 실행하고 인식된 텍스트를 결과로 검색하는 기능을 제공합니다. 추출된 텍스트에는 맞춤법 검사, 서식 지정 또는 언어별 수정과 같은 추가 후처리 단계가 필요할 수 있습니다. Symfony/string 또는 Text_LanguageDetect와 같은 PHP 라이브러리를 이러한 목적으로 사용할 수 있습니다. Tesseract OCR을 PHP 프로젝트에 통합함으로써 소프트웨어 개발자는 문서 처리를 간소화하고 데이터 추출을 자동화하며 애플리케이션에 새로운 수준의 효율성과 접근성을 제공할 수 있습니다.
PHP용 Tesseract OCR 시작하기
PHP용 Tesseract OCR을 설치하는 권장 방법은 Composer를 사용하는 것입니다. 원활한 설치를 위해 다음 명령어를 사용하시기 바랍니다.
Composer를 통해 PHP용 Tesseract OCR 설치
$ composer require thiagoalessio/tesseract_ocr
Github을 통해 PHP용 Tesseract OCR 설치
git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git
Github 저장소에서 컴파일된 공유 라이브러리를 다운로드할 수 있습니다.
PHP 앱 내부 이미지에서 텍스트 추출
PHP 라이브러리용 오픈 소스 Tesseract OCR은 PHP 명령을 사용하여 이미지에서 텍스트를 추출하는 데 유용한 몇 가지 기능을 제공합니다. 라이브러리는 다양한 레이아웃과 텍스트 배열을 처리하기 위해 다양한 페이지 분할 모드를 제공합니다. 추출하려는 텍스트가 포함된 이미지나 문서를 로드하여 추출 프로세스를 시작합니다. Tesseract PHP 래퍼를 활용하여 전처리된 이미지를 Tesseract OCR 엔진에 전달합니다. 래퍼는 OCR을 실행하고 인식된 텍스트를 결과로 검색하는 기능을 제공합니다. 다음 예제에서는 PHP 명령을 사용하여 이미지를 로드하고 이미지에서 텍스트를 추출하는 기본 프로세스를 보여줍니다.
PHP 코드를 사용하여 이미지를 로드하고 텍스트를 추출하는 방법
use TesseractOCR\TesseractOCR;
$imagePath = '/path/to/your/image.jpg';
$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition
$text = $tesseract->run();
echo $text;
PHP 앱 내에서 OCR 출력 처리
PHP 라이브러리용 오픈 소스 Tesseract OCR에는 PHP 애플리케이션 내에서 OCR의 출력 텍스트를 저장하고 작업하는 데 매우 유용한 기능이 포함되어 있습니다. PDF, TXT, HTML, Word 등과 같은 널리 사용되는 형식으로 텍스트를 저장할 수 있습니다. 이미지에서 추출된 인식된 텍스트를 처리할 수 있습니다. 애플리케이션의 요구 사항에 따라 추출된 텍스트를 추가로 처리하거나 분석해야 할 수도 있습니다. 일반적인 작업에는 데이터 유효성 검사, 텍스트 정리, 맞춤법 검사, 서식 지정, 고급 처리 또는 언어별 수정을 위한 다른 시스템과의 통합이 포함됩니다. 소프트웨어 개발자는 문서, 소셜 미디어 피드 또는 고객 피드백에서 추출된 대량의 텍스트 데이터를 쉽게 분석하여 통찰력, 감정 분석 또는 주제 모델링을 도출할 수 있습니다.
PHP API를 통해 이미지 데이터 검색, 크기 조정 및 PDF 형식 저장
//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();
$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();
// Save the Output to PDF file
echo (new TesseractOCR('img.png'))
->configFile('pdf')
->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
->run();