पीडीएफ फाइलों को पार्स करने के लिए ओपन सोर्स पीएचपी लाइब्रेरी
मुफ्त PHP एपीआई डेवलपर्स को पीडीएफ फाइलों को पार्स करने, पीडीएफ से डेटा और तत्वों को निकालने की अनुमति देता है।
PDFParser एक ओपन सोर्स PHP लाइब्रेरी है जो सॉफ्टवेयर डेवलपर्स को पीडीएफ फाइलों को पार्स करने और अपने स्वयं के PHP अनुप्रयोगों के अंदर पीडीएफ तत्वों को निकालने की अनुमति देता है। PDFParser TCPDF पार्सर के शीर्ष पर बनाया गया है। PDFParser एक स्टैंडअलोन PHP लाइब्रेरी है जो PDF फ़ाइल से डेटा निकालने के लिए विभिन्न टूल प्रदान करती है।
पोर्टेबल दस्तावेज़ प्रारूप (पीडीएफ) दुनिया के पसंदीदा दस्तावेज़ स्वरूपों में से एक है और अभी भी बहुत लोकप्रिय है। एपीआई पीडीएफ पार्सिंग के लिए कई महत्वपूर्ण विशेषताओं का समर्थन करता है, जैसे पीडीएफ ऑब्जेक्ट्स और हेडर को लोड करना और पार्स करना, मेटाडेटा निकालना, ऑर्डर किए गए पेजों से टेक्स्ट निकालना, कंप्रेस्ड पीडीएफ सपोर्ट, हेक्सा और ऑक्टल कंटेंट एन्कोडिंग सपोर्ट, और बहुत कुछ।
.
PDFParser के साथ शुरुआत करना
PDFParser लाइब्रेरी composer कमांड लाइन के माध्यम से स्वचालित रूप से डाउनलोड हो जाएगी। PDFParser को अपनी कंपोज़र.json फ़ाइल में जोड़ें।
कंपोज़र.जेसन में कमांड जोड़ें
{
"require": {
"smalot/pdfparser": "*"
}
}
कमांड चलाकर बंडल को डाउनलोड करने के लिए कंपोजर का उपयोग करें:
पीएचपी एपीआई के माध्यम से प्रत्येक पृष्ठ से पीडीएफ फाइल को पार्स करें और टेक्स्ट निकालें
PDFParser कार्यक्षमता प्रदान करता है जो कंप्यूटर प्रोग्रामर को अपने स्वयं के PHP एप्लिकेशन के अंदर PDF दस्तावेज़ों को पार्स करने में सक्षम बनाता है। सबसे पहले, आपको आवश्यक वस्तुओं का निर्माण करने की आवश्यकता है, फिर पीडीएफ फाइल लोड करें, पार्स की गई फाइल को एक चर पर संग्रहीत किया जा सकता है और फिर यह ऑब्जेक्ट आपको पेज द्वारा पीडीएफ पेज को संभालने की अनुमति देगा। अब आप आसानी से संपूर्ण PDF से या अलग-अलग पृष्ठों से टेक्स्ट निकाल सकते हैं। एक बार दस्तावेज़ को पार्स करने के बाद अब आप पीडीएफ के प्रत्येक पृष्ठ से आसानी से टेक्स्ट निकाल सकते हैं।
PHP के माध्यम से पीडीएफ फाइल को पार्स करें
// Include Composer autoloader if not already done.
include 'vendor/autoload.php';
// Parse Base64 encoded PDF string and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseContent(base64_decode($base64PDF));
$text = $pdf->getText();
echo $text;
पीडीएफ दस्तावेज़ से मेटाडेटा निकालें
Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.
पीएचपी एपीआई के माध्यम से पीडीएफ से मेटाडेटा निकालें
// Metadata Extraction from PDF
$metaData = $pdf->getDetails();
Array
(
[Producer] => Adobe Acrobat
[CreatedOn] => 2022-01-28T16:36:11+00:00
[Pages] => 35
)
एक विशिष्ट पीडीएफ पेज से टेक्स्ट निकालें
PDFParser डेवलपर्स को कोड की एक छोटी राशि का उपयोग करके आसानी से विशिष्ट पृष्ठों से टेक्स्ट निकालने की अनुमति देता है। एपीआई डेवलपर्स को पीडीएफ दस्तावेज़ के प्रत्येक पृष्ठ को अलग से संभालने की क्षमता देता है। डेवलपर्स पृष्ठों की सरणी के माध्यम से पुनरावृति कर सकते हैं और अपनी पसंद के पृष्ठ से पाठ पुनः प्राप्त कर सकते हैं। सरणी का क्रम पीडीएफ दस्तावेज़ के समान ही है।
PHP के माध्यम से पीडीएफ से टेक्स्ट निकालें
// Extract Text from PDF via PHP
$text = $pdf->getText();
// or extract the text of a specific page (in this case the first page)
$text = $pdf->getPages()[0]->getText();