Free PHP API to Extract Text & Metadata from PDF and Images

Open Source PHP Optical Character Recognition Library allows to Extract Text, Metadata and HTML from PDF, DOCX, Images (JPEG, PNG) & Other Documents in Multiple Languages inside PHP Apps.

소프트웨어 개발 분야에서 다양한 유형의 파일에서 텍스트를 다루는 일은 까다로울 수 있지만 빈번히 발생하는 작업입니다. 문서를 관리하는 시스템을 만들든, 콘텐츠를 분석하는 도구를 만들든, 검색 엔진을 구축하든, PDF, 워드 문서, 스프레드시트 및 기타 파일 형식에서 텍스트를 추출할 수 있는 능력은 필수적입니다. 여기서 PHP-Apache-Tika 라이브러리가 가치 있게 됩니다. Apache Tika는 콘텐츠 분석 작업을 처리하도록 설계된 유연한 툴킷입니다. Tika를 사용하면 PDF, Microsoft Office 파일, 이미지 등 다양한 파일 유형에서 메타데이터와 텍스트를 추출할 수 있습니다. Tika는 원래 Java로 작성되었으며, 종종 자체 서버로 설정되어 HTTP를 통해 접근합니다. 이 방식 덕분에 PHP와 같은 다양한 프로그래밍 언어가 복잡한 파싱 로직을 처음부터 구현하지 않고도 Tika의 강력한 기능을 활용할 수 있습니다.

이 라이브러리는 텍스트 및 HTML 추출, 메타데이터 추출, 향상된 오류 처리, OCR 인식, 문서용 표준화된 메타데이터, 로컬 및 원격 리소스 지원 등 수많은 기능을 지원합니다. PHP-Apache-Tika 라이브러리는 PHP 애플리케이션과 Apache Tika 서버를 연결합니다. 자체 파서나 변환기를 직접 구축하는 대신, 이 라이브러리를 사용해 문서를 Tika 서버에 전송하고 정제된 텍스트 또는 메타데이터를 반환받을 수 있습니다. 이는 개발 과정을 단순화할 뿐만 아니라, 애플리케이션이 Tika의 지속적인 개선과 광범위한 포맷 지원 혜택을 누릴 수 있게 합니다. 복잡한 문서 관리 시스템을 개발하든 가벼운 콘텐츠 분석 도구를 만들든, PHP-Apache-Tika 라이브러리는 신뢰할 수 있고 유연한 솔루션을 제공합니다.

한눈에 보기

PHP-Apache-Tika 기능 개요.

Features Overview

Perform OCR
Add OCR Capabilities
Recognize text in many languages
Convet Images of text
Recognized Font text
Search PDF
Other Languages
Create OCR apps
Save to browser
Extract Text
Multi-threading Support

PHP-Apache-Tika

PHP-Apache-Tika는 아래에 나열된 일반적인 압축 파일 형식을 지원합니다.

Reader

PNG, JPEG, BMP, TIFF, TGA, DICOM

Writer

PNG, JPEG, BMP, TIFF

PHP-Apache-Tika

플랫폼 독립성

PHP-Apache-Tika는 PHP 런타임만 있으면 됩니다.

PHP 5.1 이상.

PHP-Apache-Tika

PHP-Apache-Tika 시작하기

PHP-Apache-Tika를 설치하는 권장 방법은 Composer를 이용하는 것입니다. 원활한 설치를 위해 아래 명령어를 사용하십시오.

Composer를 통한 PHP-Apache-Tika 설치

composer require vaites/php-apache-tika

Github를 통한 PHP-Apache-Tika 설치

git clone https://github.com/fizzday/OcrPHP.git

컴파일된 공유 라이브러리는 Github 저장소에서 다운로드할 수 있습니다.

PHP를 통한 텍스트 및 HTML 추출

PHP-Apache-Tika 라이브러리의 주요 기능 중 하나는 다양한 문서 형식에서 텍스트를 추출할 수 있다는 점입니다. 이는 검색 기능이나 콘텐츠 분석 도구를 구현할 때 특히 유용합니다. 라이브러리는 문서에서 순수 텍스트를 추출하는 것을 지원하므로 인덱싱, 검색 또는 분석 작업을 보다 쉽게 수행할 수 있습니다. 아래 코드는 TikaClient가 문서를 Tika 서버에 전송하고 순수 텍스트 콘텐츠를 받아와 추가 처리나 인덱싱에 사용할 수 있도록 하는 예시입니다.

PHP 애플리케이션에서 문서 텍스트를 추출하는 방법

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');

// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';

try {
    // Extract text content from the document
    $extractedText = $client->extract($filePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

PHP 라이브러리를 통한 메타데이터 추출

텍스트뿐만 아니라 문서에는 저자 정보, 생성 날짜, 파일 유형 등 유용한 메타데이터가 포함되어 있는 경우가 많습니다. PHP-Apache-Tika 라이브러리를 사용하면 이러한 메타데이터를 추출하여 보다 풍부한 애플리케이션을 구축할 수 있습니다. 아래 예시는 문서에서 메타데이터를 가져오는 방법을 보여줍니다. 반환된 배열은 파일 유형 및 내용에 따라 다양한 세부 정보를 포함할 수 있습니다.

PHP 라이브러리를 사용해 메타데이터를 추출하는 방법

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');

// Specify the document file path
$filePath = '/path/to/your/document.pdf';

try {
    // Extract metadata from the document
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

다중 파일 형식 처리

Apache Tika의 강점은 다중 파일 형식을 지원한다는 점입니다. PDF, DOC, 이미지 등은 물론 덜 일반적인 파일 형식까지도 이 라이브러리를 사용하면 형식별 특수성을 신경 쓰지 않고 필요한 데이터를 추출할 수 있습니다. 예를 들어, 사용자가 다양한 파일 유형을 업로드할 수 있는 문서 관리 시스템을 개발한다면, 라이브러리를 이용해 각 파일의 콘텐츠와 메타데이터를 모두 파악할 수 있습니다.