Free PHP API to Extract Text & Metadata from PDF and Images
Open Source PHP Optical Character Recognition Library allows to Extract Text, Metadata and HTML from PDF, DOCX, Images (JPEG, PNG) & Other Documents in Multiple Languages inside PHP Apps.
सॉफ़्टवेयर विकास के क्षेत्र में विभिन्न प्रकार की फ़ाइलों से टेक्स्ट को संभालना जटिल हो सकता है, लेकिन यह एक सामान्य कार्य है। चाहे आप दस्तावेज़ प्रबंधन प्रणाली बना रहे हों, कंटेंट विश्लेषण टूल, या सर्च इंजन, PDFs, Word दस्तावेज़, स्प्रेडशीट और अन्य फ़ाइल फ़ॉर्मैट्स से टेक्स्ट निकालने में सक्षम होना अत्यंत महत्वपूर्ण है। यहीं पर PHP‑Apache‑Tika लाइब्रेरी मूल्यवान बनती है। Apache Tika एक लचीला टूलकिट है जिसे कंटेंट एनालिसिस कार्यों को संभालने के लिए बनाया गया है। आप Tika का उपयोग करके PDFs, Microsoft Office फ़ाइलें और इमेज जैसी विभिन्न फ़ाइल प्रकारों से मेटाडेटा और टेक्स्ट निकाल सकते हैं। Tika मूल रूप से Java में लिखा गया था। इसे अक्सर एक स्वतंत्र सर्वर के रूप में सेट किया जाता है, जिससे यह HTTP के माध्यम से उपलब्ध होता है। यह तरीका विभिन्न प्रोग्रामिंग भाषाओं, जैसे PHP, को Tika की शक्तिशाली क्षमताओं का उपयोग करने देता है, बिना जटिल पार्सिंग प्रक्रियाओं को शून्य से बनाने की आवश्यकता के।
यह लाइब्रेरी कई सुविधाओं का समर्थन करती है, जैसे टेक्स्ट और HTML निष्कर्षण, मेटाडेटा निष्कर्षण, बेहतर त्रुटि प्रबंधन, OCR पहचान, दस्तावेज़ों के लिए मानकीकृत मेटाडेटा, स्थानीय और दूरस्थ संसाधनों का समर्थन, और कई अन्य। PHP‑Apache‑Tika लाइब्रेरी PHP अनुप्रयोगों को Apache Tika सर्वर से जोड़ती है। अपने स्वयं के पार्सर या कन्वर्टर बनाने के बजाय, आप इस लाइब्रेरी का उपयोग करके दस्तावेज़ों को Tika सर्वर पर भेज सकते हैं और साफ़, निकाले गए टेक्स्ट या मेटाडेटा प्राप्त कर सकते हैं। यह न केवल विकास प्रक्रिया को सरल बनाता है, बल्कि यह भी सुनिश्चित करता है कि आपका अनुप्रयोग Tika के निरंतर सुधारों और व्यापक फ़ॉर्मैट समर्थन से लाभान्वित हो। चाहे आप एक जटिल दस्तावेज़ प्रबंधन प्रणाली विकसित कर रहे हों या एक हल्का कंटेंट विश्लेषण टूल, PHP‑Apache‑Tika लाइब्रेरी एक विश्वसनीय और लचीला समाधान प्रदान करती है।
PHP‑Apache‑Tika के साथ शुरूआत
PHP‑Apache‑Tika को स्थापित करने का अनुशंसित तरीका Composer का उपयोग करना है। सुगम स्थापना के लिए कृपया निम्न कमांड का उपयोग करें।
Composer के माध्यम से PHP‑Apache‑Tika स्थापित करें
composer require vaites/php-apache-tikaGithub के माध्यम से PHP‑Apache‑Tika स्थापित करें
git clone https://github.com/fizzday/OcrPHP.git आप Github रिपॉज़िटरी से संकलित साझा लाइब्रेरी डाउनलोड कर सकते हैं।
PHP के माध्यम से टेक्स्ट और HTML निष्कर्षण
PHP‑Apache‑Tika लाइब्रेरी की मुख्य विशेषताओं में से एक विभिन्न दस्तावेज़ फ़ॉर्मैट्स से टेक्स्ट निकालने की क्षमता है। यह खोज कार्यक्षमता या कंटेंट विश्लेषण टूल्स को लागू करने में विशेष रूप से उपयोगी हो सकता है। लाइब्रेरी दस्तावेज़ों से साधारण टेक्स्ट निकालने का समर्थन करती है, जिससे इंडेक्सिंग, खोज या कंटेंट विश्लेषण आसान हो जाता है। नीचे एक कोड स्निपेट दिया गया है जो दर्शाता है कि TikaClient दस्तावेज़ को Tika सर्वर पर भेजता है और साधारण टेक्स्ट सामग्री प्राप्त करता है, जिससे वह आगे की प्रोसेसिंग या इंडेक्सिंग के लिए तैयार हो जाता है।
PHP एप्लिकेशन में दस्तावेज़ से टेक्स्ट कैसे निकालें?
require_once 'vendor/autoload.php';
use Vaites\ApacheTika\TikaClient;
// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');
// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';
try {
// Extract text content from the document
$extractedText = $client->extract($filePath);
echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
echo "Error extracting text: " . $e->getMessage();
}
PHP लाइब्रेरी के माध्यम से मेटाडेटा निष्कर्षण
केवल टेक्स्ट से आगे, दस्तावेज़ अक्सर मूल्यवान मेटाडेटा रखते हैं जैसे लेखक जानकारी, निर्माण तिथि और फ़ाइल प्रकार। PHP‑Apache‑Tika लाइब्रेरी इस मेटाडेटा को निकाल सकती है, जिससे आप अधिक समृद्ध अनुप्रयोग बना सकते हैं। यह उदाहरण दिखाता है कि दस्तावेज़ से मेटाडेटा कैसे प्राप्त किया जाए। परिणामी एरे में फ़ाइल प्रकार और उसकी सामग्री के आधार पर विभिन्न विवरण शामिल हो सकते हैं।
PHP लाइब्रेरी का उपयोग करके मेटाडेटा कैसे निकालें?
require_once 'vendor/autoload.php';
use Vaites\ApacheTika\TikaClient;
// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');
// Specify the document file path
$filePath = '/path/to/your/document.pdf';
try {
// Extract metadata from the document
$metadata = $client->getMetadata($filePath);
echo "Extracted Metadata:\n";
print_r($metadata);
} catch (\Exception $e) {
echo "Error extracting metadata: " . $e->getMessage();
}
एकाधिक फ़ाइल फ़ॉर्मैट्स को संभालना
Apache Tika की शक्ति कई फ़ाइल फ़ॉर्मैट्स के समर्थन में निहित है। चाहे आप PDFs, DOCs, इमेज या यहाँ तक कि कम सामान्य फ़ाइल प्रकारों से निपट रहे हों, यह लाइब्रेरी सुनिश्चित करती है कि आप आवश्यक डेटा निकाल सकें बिना फ़ॉर्मैट‑विशिष्ट जटिलताओं की चिंता किए। कल्पना करें कि आप एक दस्तावेज़ प्रबंधन प्रणाली विकसित कर रहे हैं जहाँ उपयोगकर्ता विभिन्न फ़ाइल प्रकार अपलोड कर सकते हैं। आप प्रत्येक फ़ाइल के कंटेंट और मेटाडेटा दोनों निर्धारित करने के लिए इस लाइब्रेरी का उपयोग कर सकते हैं: