1. Προϊόντα
  2.   OCR
  3.   PHP
  4.   PHP-Apache-Tika
 
  

Δωρεάν PHP API για Εξαγωγή Κειμένου & Μεταδεδομένων από PDF και Εικόνες

Βιβλιοθήκη PHP Αναγνώρισης Οπτικών Χαρακτήρων Ανοιχτού Κώδικα που επιτρέπει την Εξαγωγή Κειμένου, Μεταδεδομένων και HTML από PDF, DOCX, Εικόνες (JPEG, PNG) & Άλλα Έγγραφα σε Πολλές Γλώσσες μέσα σε Εφαρμογές PHP.

Στον χώρο της ανάπτυξης λογισμικού, η διαχείριση κειμένου από διαφορετικούς τύπους αρχείων μπορεί να είναι δύσκολη αλλά αποτελεί συχνό έργο. Είτε δημιουργείτε ένα σύστημα διαχείρισης εγγράφων, ένα εργαλείο ανάλυσης περιεχομένου ή μια μηχανή αναζήτησης, η δυνατότητα εξαγωγής κειμένου από PDF, έγγραφα Word, λογιστικά φύλλα και άλλες μορφές αρχείων είναι κρίσιμη. Εδώ η βιβλιοθήκη PHP-Apache-Tika αποδεικνύεται πολύτιμη. Το Apache Tika είναι ένα ευέλικτο εργαλείο σχεδιασμένο για τη διαχείριση εργασιών ανάλυσης περιεχομένου. Μπορείτε να χρησιμοποιήσετε το Tika για να εξάγετε μεταδεδομένα και κείμενο από διάφορους τύπους αρχείων όπως PDF, αρχεία Microsoft Office και εικόνες. Το Tika αρχικά κωδικοποιήθηκε σε Java. Συχνά εγκαθίσταται ως δικό του διακομιστή, καθιστώντας το προσβάσιμο μέσω HTTP. Αυτή η μέθοδος επιτρέπει σε διαφορετικές γλώσσες προγραμματισμού, όπως η PHP, να αξιοποιούν τις ισχυρές δυνατότητες του Tika χωρίς να χρειάζεται να δημιουργήσουν πολύπλοκες διαδικασίες ανάλυσης από το μηδέν.

Η βιβλιοθήκη υποστηρίζει πληθώρα λειτουργιών όπως εξαγωγή κειμένου και HTML, εξαγωγή μεταδεδομένων, βελτιωμένη διαχείριση σφαλμάτων, αναγνώριση OCR, τυποποιημένα μεταδεδομένα για έγγραφα, υποστήριξη τοπικών και απομακρυσμένων πόρων, και πολλά άλλα. Η βιβλιοθήκη PHP-Apache-Tika γεφυρώνει τις εφαρμογές PHP με τον διακομιστή Apache Tika. Αντί να δημιουργείτε τους δικούς σας αναλυτές ή μετατροπείς, μπορείτε να βασιστείτε σε αυτή τη βιβλιοθήκη για να στέλνετε έγγραφα στον διακομιστή Tika και να λαμβάνετε καθαρό, εξαγόμενο κείμενο ή μεταδεδομένα ως απάντηση. Αυτό όχι μόνο απλοποιεί τη διαδικασία ανάπτυξης, αλλά εξασφαλίζει επίσης ότι η εφαρμογή σας ωφελείται από τις συνεχείς βελτιώσεις του Tika και την ευρεία υποστήριξη μορφών. Είτε αναπτύσσετε ένα σύνθετο σύστημα διαχείρισης εγγράφων είτε ένα ελαφρύ εργαλείο ανάλυσης περιεχομένου, η βιβλιοθήκη PHP-Apache-Tika προσφέρει αξιόπιστη και ευέλικτη λύση.

Previous Next

Ξεκινώντας με το PHP-Apache-Tika

Ο συνιστώμενος τρόπος εγκατάστασης του PHP-Apache-Tika είναι μέσω Composer. Παρακαλώ χρησιμοποιήστε την παρακάτω εντολή για ομαλή εγκατάσταση.

Εγκατάσταση PHP-Apache-Tika μέσω Composer

composer require vaites/php-apache-tika

Εγκατάσταση PHP-Apache-Tika μέσω Github

git clone https://github.com/fizzday/OcrPHP.git 

Μπορείτε να κατεβάσετε τη μεταγλωττισμένη κοινόχρηστη βιβλιοθήκη από το αποθετήριο Github.

Εξαγωγή Κειμένου και HTML μέσω PHP

Ένα από τα κύρια χαρακτηριστικά της βιβλιοθήκης PHP-Apache-Tika είναι η ικανότητά της να εξάγει κείμενο από διάφορες μορφές εγγράφων. Αυτό μπορεί να είναι ιδιαίτερα χρήσιμο όταν υλοποιείτε λειτουργίες αναζήτησης ή εργαλεία ανάλυσης περιεχομένου. Η βιβλιοθήκη υποστηρίζει την εξαγωγή απλού κειμένου από έγγραφα, καθιστώντας πιο εύκολη την ευρετηρίαση, την αναζήτηση ή την ανάλυση του περιεχομένου. Ακολουθεί ένα απόσπασμα κώδικα που δείχνει πώς το TikaClient στέλνει το έγγραφο στον διακομιστή Tika και ανακτά το απλό κείμενο, καθιστώντας το έτοιμο για περαιτέρω επεξεργασία ή ευρετηρίαση.

Πώς να Εξάγετε Κείμενο από Ένα Έγγραφο σε Εφαρμογές PHP;

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');

// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';

try {
    // Extract text content from the document
    $extractedText = $client->extract($filePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

Εξαγωγή Μεταδεδομένων μέσω Βιβλιοθήκης PHP

Πέρα από το κείμενο, τα έγγραφα συχνά περιέχουν πολύτιμα μεταδεδομένα όπως πληροφορίες συγγραφέα, ημερομηνίες δημιουργίας και τύπους αρχείων. Η βιβλιοθήκη PHP-Apache-Tika μπορεί να εξάγει αυτά τα μεταδεδομένα, επιτρέποντάς σας να δημιουργήσετε πιο πλούσιες εφαρμογές. Αυτό το παράδειγμα δείχνει πώς να ανακτήσετε μεταδεδομένα από ένα έγγραφο. Ο πίνακας που επιστρέφεται μπορεί να περιλαμβάνει διάφορες λεπτομέρειες ανάλογα με τον τύπο του αρχείου και το περιεχόμενό του.

Πώς να Εξάγετε Μεταδεδομένα χρησιμοποιώντας τη Βιβλιοθήκη PHP;

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');

// Specify the document file path
$filePath = '/path/to/your/document.pdf';

try {
    // Extract metadata from the document
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

Διαχείριση Πολλαπλών Μορφών Αρχείων

Η δύναμη του Apache Tika έγκειται στην υποστήριξή του για πολλαπλές μορφές αρχείων. Είτε εργάζεστε με PDF, DOC, εικόνες ή ακόμη και λιγότερο κοινές μορφές αρχείων, αυτή η βιβλιοθήκη βοηθά να εξάγετε τα απαραίτητα δεδομένα χωρίς να ανησυχείτε για ιδιαιτερότητες κάθε μορφής. Σκεφτείτε ότι αναπτύσσετε ένα σύστημα διαχείρισης εγγράφων όπου οι χρήστες μπορούν να ανεβάζουν διαφορετικούς τύπους αρχείων. Μπορείτε να χρησιμοποιήσετε τη βιβλιοθήκη για να προσδιορίσετε τόσο το περιεχόμενο όσο και τα μεταδεδομένα για κάθε αρχείο:

 Ελληνικά