পিডিএফ ফাইল পার্স করার জন্য ওপেন সোর্স পিএইচপি লাইব্রেরি

ফ্রি পিএইচপি এপিআই ডেভেলপারদের পিডিএফ ফাইল পার্স করতে, পিডিএফ থেকে ডেটা এবং উপাদান বের করতে দেয়।

PDFParser হল একটি ওপেন সোর্স পিএইচপি লাইব্রেরি যা সফ্টওয়্যার ডেভেলপারদের পিডিএফ ফাইল পার্স করতে এবং তাদের নিজস্ব পিএইচপি অ্যাপ্লিকেশনের মধ্যে পিডিএফ উপাদানগুলি বের করতে দেয়। PDFParser টিসিপিডিএফ পার্সারের উপরে নির্মিত। PDFParser হল একটি স্বতন্ত্র পিএইচপি লাইব্রেরি যা একটি PDF ফাইল থেকে ডেটা বের করার জন্য বিভিন্ন টুল সরবরাহ করে।

পোর্টেবল ডকুমেন্ট ফরম্যাট (পিডিএফ) বিশ্বের অন্যতম প্রিয় নথি বিন্যাস এবং এখনও খুব জনপ্রিয়। এপিআই পিডিএফ পার্সিংয়ের জন্য বেশ কিছু গুরুত্বপূর্ণ বৈশিষ্ট্য সমর্থন করে, যেমন পিডিএফ অবজেক্ট এবং হেডার লোড করা এবং পার্স করা, মেটাডেটা এক্সট্র্যাক্ট করা, অর্ডার করা পেজ থেকে টেক্সট এক্সট্রাক্ট করা, কমপ্রেসড পিডিএফ সাপোর্ট, হেক্সা এবং অক্টাল কন্টেন্ট এনকোডিং সাপোর্ট এবং আরও অনেক কিছু।

.

Previous Next

PDFParser দিয়ে শুরু করা

PDFParser লাইব্রেরি স্বয়ংক্রিয়ভাবে কম্পোজার কমান্ড লাইনের মাধ্যমে ডাউনলোড হয়ে যাবে। আপনার composer.json ফাইলে PDFParser যোগ করুন।

composer.json-এ কমান্ড যোগ করুন

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 } 

কমান্ডটি চালিয়ে বান্ডিলটি ডাউনলোড করতে কম্পোজার ব্যবহার করুন:

পিডিএফ ফাইল পার্স করুন এবং পিএইচপি API এর মাধ্যমে প্রতিটি পৃষ্ঠা থেকে পাঠ্য বের করুন

PDFParser কার্যকারিতা প্রদান করে যা কম্পিউটার প্রোগ্রামারদের তাদের নিজস্ব PHP অ্যাপ্লিকেশনের মধ্যে PDF নথি পার্স করতে সক্ষম করে। প্রথমে আপনাকে প্রয়োজনীয় বস্তু তৈরি করতে হবে তারপর PDF ফাইলটি লোড করতে হবে, পার্স করা ফাইলটি একটি ভেরিয়েবলে সংরক্ষণ করা যেতে পারে এবং তারপর এই অবজেক্টটি আপনাকে পৃষ্ঠা অনুসারে PDF পৃষ্ঠা পরিচালনা করার অনুমতি দেবে। এখন আপনি সম্পূর্ণ পিডিএফ থেকে বা পৃষ্ঠাগুলির দ্বারা আলাদাভাবে পাঠ্য বের করতে পারেন। ডকুমেন্টটি পার্স করা হয়ে গেলে এখন আপনি PDF এর প্রতিটি পৃষ্ঠা থেকে সহজেই টেক্সট বের করতে পারবেন।

পিএইচপি এর মাধ্যমে পিডিএফ ফাইল পার্স করুন

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

পিডিএফ ডকুমেন্ট থেকে মেটাডেটা বের করুন

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

পিএইচপি API এর মাধ্যমে PDF থেকে মেটাডেটা বের করুন

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

একটি নির্দিষ্ট পিডিএফ পৃষ্ঠা থেকে পাঠ্য বের করুন

PDFParser ডেভেলপারদের স্বল্প পরিমাণ কোড ব্যবহার করে সহজেই নির্দিষ্ট পৃষ্ঠাগুলি থেকে পাঠ্য বের করতে দেয়। API ডেভেলপারদের PDF নথির প্রতিটি পৃষ্ঠা আলাদাভাবে পরিচালনা করার ক্ষমতা দেয়। বিকাশকারীরা পৃষ্ঠাগুলির অ্যারের মাধ্যমে পুনরাবৃত্তি করতে পারে এবং তাদের পছন্দের পৃষ্ঠা থেকে পাঠ্য পুনরুদ্ধার করতে পারে। অ্যারের ক্রম পিডিএফ ডকুমেন্টের মতোই।

পিএইচপি এর মাধ্যমে পিডিএফ থেকে পাঠ্য বের করুন

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();
 বাংলা