1. 제품
  2.   OCR
  3.   PHP
  4.   PHP-Apache-Tika
 
  

Free PHP API to Extract Text & Metadata from PDF and Images

Open Source PHP Optical Character Recognition Library allows to Extract Text, Metadata and HTML from PDF, DOCX, Images (JPEG, PNG) & Other Documents in Multiple Languages inside PHP Apps.

소프트웨어 개발 분야에서 다양한 유형의 파일에서 텍스트를 다루는 일은 까다로울 수 있지만 빈번히 발생하는 작업입니다. 문서를 관리하는 시스템을 만들든, 콘텐츠를 분석하는 도구를 만들든, 검색 엔진을 구축하든, PDF, 워드 문서, 스프레드시트 및 기타 파일 형식에서 텍스트를 추출할 수 있는 능력은 필수적입니다. 여기서 PHP-Apache-Tika 라이브러리가 가치 있게 됩니다. Apache Tika는 콘텐츠 분석 작업을 처리하도록 설계된 유연한 툴킷입니다. Tika를 사용하면 PDF, Microsoft Office 파일, 이미지 등 다양한 파일 유형에서 메타데이터와 텍스트를 추출할 수 있습니다. Tika는 원래 Java로 작성되었으며, 종종 자체 서버로 설정되어 HTTP를 통해 접근합니다. 이 방식 덕분에 PHP와 같은 다양한 프로그래밍 언어가 복잡한 파싱 로직을 처음부터 구현하지 않고도 Tika의 강력한 기능을 활용할 수 있습니다.

이 라이브러리는 텍스트 및 HTML 추출, 메타데이터 추출, 향상된 오류 처리, OCR 인식, 문서용 표준화된 메타데이터, 로컬 및 원격 리소스 지원 등 수많은 기능을 지원합니다. PHP-Apache-Tika 라이브러리는 PHP 애플리케이션과 Apache Tika 서버를 연결합니다. 자체 파서나 변환기를 직접 구축하는 대신, 이 라이브러리를 사용해 문서를 Tika 서버에 전송하고 정제된 텍스트 또는 메타데이터를 반환받을 수 있습니다. 이는 개발 과정을 단순화할 뿐만 아니라, 애플리케이션이 Tika의 지속적인 개선과 광범위한 포맷 지원 혜택을 누릴 수 있게 합니다. 복잡한 문서 관리 시스템을 개발하든 가벼운 콘텐츠 분석 도구를 만들든, PHP-Apache-Tika 라이브러리는 신뢰할 수 있고 유연한 솔루션을 제공합니다.

Previous Next

PHP-Apache-Tika 시작하기

PHP-Apache-Tika를 설치하는 권장 방법은 Composer를 이용하는 것입니다. 원활한 설치를 위해 아래 명령어를 사용하십시오.

Composer를 통한 PHP-Apache-Tika 설치

composer require vaites/php-apache-tika

Github를 통한 PHP-Apache-Tika 설치

git clone https://github.com/fizzday/OcrPHP.git 

컴파일된 공유 라이브러리는 Github 저장소에서 다운로드할 수 있습니다.

PHP를 통한 텍스트 및 HTML 추출

PHP-Apache-Tika 라이브러리의 주요 기능 중 하나는 다양한 문서 형식에서 텍스트를 추출할 수 있다는 점입니다. 이는 검색 기능이나 콘텐츠 분석 도구를 구현할 때 특히 유용합니다. 라이브러리는 문서에서 순수 텍스트를 추출하는 것을 지원하므로 인덱싱, 검색 또는 분석 작업을 보다 쉽게 수행할 수 있습니다. 아래 코드는 TikaClient가 문서를 Tika 서버에 전송하고 순수 텍스트 콘텐츠를 받아와 추가 처리나 인덱싱에 사용할 수 있도록 하는 예시입니다.

PHP 애플리케이션에서 문서 텍스트를 추출하는 방법

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');

// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';

try {
    // Extract text content from the document
    $extractedText = $client->extract($filePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

PHP 라이브러리를 통한 메타데이터 추출

텍스트뿐만 아니라 문서에는 저자 정보, 생성 날짜, 파일 유형 등 유용한 메타데이터가 포함되어 있는 경우가 많습니다. PHP-Apache-Tika 라이브러리를 사용하면 이러한 메타데이터를 추출하여 보다 풍부한 애플리케이션을 구축할 수 있습니다. 아래 예시는 문서에서 메타데이터를 가져오는 방법을 보여줍니다. 반환된 배열은 파일 유형 및 내용에 따라 다양한 세부 정보를 포함할 수 있습니다.

PHP 라이브러리를 사용해 메타데이터를 추출하는 방법

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');

// Specify the document file path
$filePath = '/path/to/your/document.pdf';

try {
    // Extract metadata from the document
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

다중 파일 형식 처리

Apache Tika의 강점은 다중 파일 형식을 지원한다는 점입니다. PDF, DOC, 이미지 등은 물론 덜 일반적인 파일 형식까지도 이 라이브러리를 사용하면 형식별 특수성을 신경 쓰지 않고 필요한 데이터를 추출할 수 있습니다. 예를 들어, 사용자가 다양한 파일 유형을 업로드할 수 있는 문서 관리 시스템을 개발한다면, 라이브러리를 이용해 각 파일의 콘텐츠와 메타데이터를 모두 파악할 수 있습니다.

 한국인