다국어 이미지 텍스트를 추출하는 PHP 라이브러리

오픈 소스 PHP 광학 문자 인식 API는 PHP 애플리케이션 내에서 이미지 또는 문서를 로드 및 스캔하고, 다국어 이미지에서 텍스트를 인식 및 추출할 수 있게 합니다.

광학 문자 인식(OCR) 기술은 오늘날 이미지와 문서에서 텍스트를 추출하는 필수 도구가 되었습니다. 디지털 전환이 급증함에 따라 효율적이고 정확한 OCR 솔루션에 대한 필요성이 그 어느 때보다 커졌습니다. OcrPHP는 소프트웨어 개발자가 견고하고 확장 가능한 OCR 애플리케이션을 구축할 수 있게 하는 매우 강력한 오픈 소스 OCR 라이브러리입니다. 이는 Google이 개발한 널리 사용되고 높은 평가를 받는 OCR 기술인 Tesseract OCR 엔진을 활용하는 PHP 기반 OCR 라이브러리입니다. 라이브러리에는 문서 스캔, 이미지에서 텍스트 추출, 특정 언어로 텍스트 추출, PDF에서 텍스트 추출 등 다양한 기능이 포함되어 있습니다.

OcrPHP 라이브러리는 OCR 정확도를 향상시키기 위해 기울기 보정, 잡음 제거, 이진화와 같은 고급 이미지 전처리 기술을 포함하고 있습니다. 영어, 스페인어, 프랑스어, 독일어, 이탈리아어, 포르투갈어, 중국어, 일본어 등 다수의 언어로 OCR을 수행할 수 있습니다. 소프트웨어 개발자는 언어, 페이지 분할 모드, OCR 엔진 설정과 같은 매개변수를 조정하여 OCR 프로세스를 맞춤화할 수 있습니다. 또한 OCR 작업이 원활하고 효율적으로 실행되도록 견고한 오류 처리 메커니즘을 포함하고 있습니다. 다국어 지원, 고급 이미지 스캔, 맞춤 설정 및 간편한 통합과 같은 기능을 통해 개발자는 적은 노력과 낮은 비용으로 다목적 텍스트 인식 도구를 만들 수 있습니다.

한눈에 보기

OcrPHP 기능 개요.

Features Overview

OCR 수행
OCR 기능 추가
다수 언어의 텍스트 인식
텍스트 이미지 변환
인식된 폰트 텍스트
PDF 검색
기타 언어
OCR 앱 생성
브라우저에 저장
텍스트 추출
멀티스레드 지원

OcrPHP

OcrPHP는 아래에 나열된 인기 있는 압축 파일 형식을 지원합니다.

읽기

PNG, JPEG, BMP, TIFF, TGA, DICOM

쓰기

PNG, JPEG, BMP, TIFF

OcrPHP

플랫폼 독립성

OcrPHP는 PHP 런타임만 필요합니다.

PHP 5.1 이상.

OcrPHP

OcrPHP 시작하기

OcrPHP를 설치하는 권장 방법은 Composer를 사용하는 것입니다. 원활한 설치를 위해 다음 명령어를 사용하십시오.

Install OcrPHP via Composer

composer require fizzday/ocrphp

Install OcrPHP via Github

git clone https://github.com/fizzday/OcrPHP.git

You can download the compiled shared library from Github repository.

PHP를 사용하여 이미지에서 텍스트 인식 및 추출

오픈 소스 OcrPHP 라이브러리를 사용하면 소프트웨어가 다양한 유형의 이미지를 로드하고 몇 줄의 PHP 코드만으로 해당 이미지에서 텍스트를 추출할 수 있습니다. 아래는 Imagick 라이브러리를 사용해 이미지 파일을 로드하고 OcrPHP 클래스의 인스턴스를 생성하는 매우 간단한 예제입니다. 이후 개발자는 언어와 OCR 엔진 설정을 지정한 뒤 recognize() 메서드로 이미지에 대해 OCR을 수행할 수 있습니다. 마지막으로 getText() 메서드를 사용해 추출된 텍스트를 출력합니다.

How to Extract Text from an Image using PHP Library?

require_once 'OcrPHP/autoload.php';

// Load the image file
$image = new Imagick('path/to/image.jpg');

// Create an instance of the OcrPHP class
$ocr = new OcrPHP();

// Set the language and OCR engine settings
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);

// Perform OCR on the image
$result = $ocr->recognize($image);

// Print the extracted text
echo $result->getText();

PHP를 사용하여 특정 언어의 텍스트 인식

OcrPHP 라이브러리는 PHP 애플리케이션 내에서 OCR 작업을 수행하기 위해 다수의 언어를 지원합니다. 텍스트가 영어, 중국어 또는 기타 지원되는 언어라면 OcrPHP가 원활하게 처리합니다. 특정 언어의 텍스트를 추출하려면 언어 코드를 매개변수로 전달하십시오. 해당 Tesseract 언어 모델이 설치되어 있는지 확인하세요. 아래 예제는 PHP 애플리케이션에서 중국어 이미지에서 텍스트를 추출하는 방법을 보여줍니다.

How to Extract Text from an Image in Chinses Language via PHP?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$imagePath = __DIR__ . '/example-image-chinese.png';

$ocr = new Ocr();

// Extract text in Chinese
$text = $ocr->scan($imagePath, 'chi_sim'); // Use 'eng' for English

echo "Extracted Text (Chinese): \n" . $text;

PHP를 사용한 배치 처리 및 OCR 자동화

문서 처리 애플리케이션을 구축하는 소프트웨어 개발자에게 배치 처리는 유용한 기능이 될 수 있습니다. 오픈 소스 OcrPHP를 사용하면 개발자가 이미지 파일이 있는 디렉터리를 순회하며 각 파일에서 텍스트를 자동으로 추출할 수 있습니다. 이는 청구서, 영수증 또는 책을 스캔하는 작업을 자동화하는 데 이상적입니다. 아래 예제는 지정된 디렉터리의 모든 .png 파일을 스캔하고 각 파일에서 텍스트를 추출하여 출력하는 유용한 예시입니다. 출력 결과를 파일이나 데이터베이스에 저장하도록 확장할 수 있어 문서 처리에 강력한 도구가 됩니다.

How to Extract Text from Multiple Images via PHP Library?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$directory = __DIR__ . '/images/';
$ocr = new Ocr();

foreach (glob($directory . '*.png') as $imagePath) {
    $text = $ocr->scan($imagePath);
    echo "Text from {$imagePath}: \n" . $text . "\n\n";
}

맞춤 구성 및 통합 지원

오픈 소스 OcrPHP는 다재다능하고 개발자 친화적인 라이브러리로, OCR 기능을 PHP 프로젝트에 쉽게 통합할 수 있게 해줍니다. 이 라이브러리를 사용하면 언어, 페이지 분할 모드, 이미지 전처리 매개변수와 같은 맞춤형 Tesseract 설정을 지정할 수 있어 OCR 결과를 자유롭게 조정할 수 있습니다.