Free PHP API to Extract Text & Metadata from PDF and Images

Open Source PHP Optical Character Recognition Library allows to Extract Text, Metadata and HTML from PDF, DOCX, Images (JPEG, PNG) & Other Documents in Multiple Languages inside PHP Apps.

सॉफ़्टवेयर विकास के क्षेत्र में विभिन्न प्रकार की फ़ाइलों से टेक्स्ट को संभालना जटिल हो सकता है, लेकिन यह एक सामान्य कार्य है। चाहे आप दस्तावेज़ प्रबंधन प्रणाली बना रहे हों, कंटेंट विश्लेषण टूल, या सर्च इंजन, PDFs, Word दस्तावेज़, स्प्रेडशीट और अन्य फ़ाइल फ़ॉर्मैट्स से टेक्स्ट निकालने में सक्षम होना अत्यंत महत्वपूर्ण है। यहीं पर PHP‑Apache‑Tika लाइब्रेरी मूल्यवान बनती है। Apache Tika एक लचीला टूलकिट है जिसे कंटेंट एनालिसिस कार्यों को संभालने के लिए बनाया गया है। आप Tika का उपयोग करके PDFs, Microsoft Office फ़ाइलें और इमेज जैसी विभिन्न फ़ाइल प्रकारों से मेटाडेटा और टेक्स्ट निकाल सकते हैं। Tika मूल रूप से Java में लिखा गया था। इसे अक्सर एक स्वतंत्र सर्वर के रूप में सेट किया जाता है, जिससे यह HTTP के माध्यम से उपलब्ध होता है। यह तरीका विभिन्न प्रोग्रामिंग भाषाओं, जैसे PHP, को Tika की शक्तिशाली क्षमताओं का उपयोग करने देता है, बिना जटिल पार्सिंग प्रक्रियाओं को शून्य से बनाने की आवश्यकता के।

यह लाइब्रेरी कई सुविधाओं का समर्थन करती है, जैसे टेक्स्ट और HTML निष्कर्षण, मेटाडेटा निष्कर्षण, बेहतर त्रुटि प्रबंधन, OCR पहचान, दस्तावेज़ों के लिए मानकीकृत मेटाडेटा, स्थानीय और दूरस्थ संसाधनों का समर्थन, और कई अन्य। PHP‑Apache‑Tika लाइब्रेरी PHP अनुप्रयोगों को Apache Tika सर्वर से जोड़ती है। अपने स्वयं के पार्सर या कन्वर्टर बनाने के बजाय, आप इस लाइब्रेरी का उपयोग करके दस्तावेज़ों को Tika सर्वर पर भेज सकते हैं और साफ़, निकाले गए टेक्स्ट या मेटाडेटा प्राप्त कर सकते हैं। यह न केवल विकास प्रक्रिया को सरल बनाता है, बल्कि यह भी सुनिश्चित करता है कि आपका अनुप्रयोग Tika के निरंतर सुधारों और व्यापक फ़ॉर्मैट समर्थन से लाभान्वित हो। चाहे आप एक जटिल दस्तावेज़ प्रबंधन प्रणाली विकसित कर रहे हों या एक हल्का कंटेंट विश्लेषण टूल, PHP‑Apache‑Tika लाइब्रेरी एक विश्वसनीय और लचीला समाधान प्रदान करती है।

एक नज़र में

PHP‑Apache‑Tika की विशेषताओं का एक अवलोकन।

विशेषताओं का अवलोकन

OCR करें
OCR क्षमताएँ जोड़ें
कई भाषाओं में टेक्स्ट को पहचानें
टेक्स्ट वाली इमेज को बदलें
फ़ॉन्ट टेक्स्ट को पहचानें
PDF खोजें
अन्य भाषाएँ
OCR ऐप्स बनाएं
ब्राउज़र में सहेजें
टेक्स्ट निकालें
मल्टी‑थ्रेडिंग समर्थन

PHP‑Apache‑Tika

PHP‑Apache‑Tika नीचे सूचीबद्ध लोकप्रिय संपीड़न फ़ाइल फ़ॉर्मैट्स का समर्थन करता है।

रीडर

PNG, JPEG, BMP, TIFF, TGA, DICOM

राइटर

PNG, JPEG, BMP, TIFF

PHP‑Apache‑Tika

प्लेटफ़ॉर्म स्वतंत्रता

PHP‑Apache‑Tika को केवल PHP रनटाइम की आवश्यकता होती है।

PHP 5.1 और ऊपर।

PHP‑Apache‑Tika

PHP‑Apache‑Tika के साथ शुरूआत

PHP‑Apache‑Tika को स्थापित करने का अनुशंसित तरीका Composer का उपयोग करना है। सुगम स्थापना के लिए कृपया निम्न कमांड का उपयोग करें।

Composer के माध्यम से PHP‑Apache‑Tika स्थापित करें

composer require vaites/php-apache-tika

Github के माध्यम से PHP‑Apache‑Tika स्थापित करें

git clone https://github.com/fizzday/OcrPHP.git

आप Github रिपॉज़िटरी से संकलित साझा लाइब्रेरी डाउनलोड कर सकते हैं।

PHP के माध्यम से टेक्स्ट और HTML निष्कर्षण

PHP‑Apache‑Tika लाइब्रेरी की मुख्य विशेषताओं में से एक विभिन्न दस्तावेज़ फ़ॉर्मैट्स से टेक्स्ट निकालने की क्षमता है। यह खोज कार्यक्षमता या कंटेंट विश्लेषण टूल्स को लागू करने में विशेष रूप से उपयोगी हो सकता है। लाइब्रेरी दस्तावेज़ों से साधारण टेक्स्ट निकालने का समर्थन करती है, जिससे इंडेक्सिंग, खोज या कंटेंट विश्लेषण आसान हो जाता है। नीचे एक कोड स्निपेट दिया गया है जो दर्शाता है कि TikaClient दस्तावेज़ को Tika सर्वर पर भेजता है और साधारण टेक्स्ट सामग्री प्राप्त करता है, जिससे वह आगे की प्रोसेसिंग या इंडेक्सिंग के लिए तैयार हो जाता है।

PHP एप्लिकेशन में दस्तावेज़ से टेक्स्ट कैसे निकालें?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');

// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';

try {
    // Extract text content from the document
    $extractedText = $client->extract($filePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

PHP लाइब्रेरी के माध्यम से मेटाडेटा निष्कर्षण

केवल टेक्स्ट से आगे, दस्तावेज़ अक्सर मूल्यवान मेटाडेटा रखते हैं जैसे लेखक जानकारी, निर्माण तिथि और फ़ाइल प्रकार। PHP‑Apache‑Tika लाइब्रेरी इस मेटाडेटा को निकाल सकती है, जिससे आप अधिक समृद्ध अनुप्रयोग बना सकते हैं। यह उदाहरण दिखाता है कि दस्तावेज़ से मेटाडेटा कैसे प्राप्त किया जाए। परिणामी एरे में फ़ाइल प्रकार और उसकी सामग्री के आधार पर विभिन्न विवरण शामिल हो सकते हैं।

PHP लाइब्रेरी का उपयोग करके मेटाडेटा कैसे निकालें?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');

// Specify the document file path
$filePath = '/path/to/your/document.pdf';

try {
    // Extract metadata from the document
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

एकाधिक फ़ाइल फ़ॉर्मैट्स को संभालना

Apache Tika की शक्ति कई फ़ाइल फ़ॉर्मैट्स के समर्थन में निहित है। चाहे आप PDFs, DOCs, इमेज या यहाँ तक कि कम सामान्य फ़ाइल प्रकारों से निपट रहे हों, यह लाइब्रेरी सुनिश्चित करती है कि आप आवश्यक डेटा निकाल सकें बिना फ़ॉर्मैट‑विशिष्ट जटिलताओं की चिंता किए। कल्पना करें कि आप एक दस्तावेज़ प्रबंधन प्रणाली विकसित कर रहे हैं जहाँ उपयोगकर्ता विभिन्न फ़ाइल प्रकार अपलोड कर सकते हैं। आप प्रत्येक फ़ाइल के कंटेंट और मेटाडेटा दोनों निर्धारित करने के लिए इस लाइब्रेरी का उपयोग कर सकते हैं: