Libreria PHP per Estrarre Testo da Immagini in Molteplici Lingue
L'API OCR PHP Open Source consente di caricare e scansionare immagini o documenti, riconoscere ed estrarre testo da immagini in più lingue all'interno di applicazioni PHP.
La tecnologia di Riconoscimento Ottico dei Caratteri (OCR) è diventata uno strumento essenziale per estrarre testo da immagini e documenti al giorno d'oggi. Con l'ascesa della trasformazione digitale, la necessità di soluzioni OCR efficienti e accurate non è mai stata così pressante. OcrPHP è una libreria OCR open source molto potente che consente agli sviluppatori di creare applicazioni OCR robuste e scalabili. È una libreria OCR basata su PHP che utilizza il motore Tesseract OCR, una tecnologia OCR ampiamente usata e molto apprezzata sviluppata da Google. La libreria offre numerose funzionalità, tra cui scansione di documenti, estrazione di testo da immagini, estrazione di testo in una lingua specifica, estrazione di testo da PDF e molto altro.
La libreria OcrPHP include tecniche avanzate di pre‑elaborazione delle immagini, come la correzione dell'inclinazione, la rimozione del rumore e la binarizzazione, per migliorare l'accuratezza OCR. Supporta l'esecuzione di OCR in più lingue, tra cui inglese, spagnolo, francese, tedesco, italiano, portoghese, cinese, giapponese e molte altre. Gli sviluppatori possono personalizzare il processo OCR regolando parametri come lingua, modalità di segmentazione della pagina e impostazioni del motore OCR. Sono stati integrati robusti meccanismi di gestione degli errori per garantire che le operazioni OCR vengano eseguite in modo fluido ed efficiente. Con funzionalità come il supporto multilingua, la scansione avanzata delle immagini, configurazioni personalizzate e integrazione semplice, la libreria consente agli sviluppatori di creare strumenti di riconoscimento del testo versatili con poco sforzo e a basso costo.
Iniziare con OcrPHP
Il modo consigliato per installare OcrPHP è utilizzare Composer. Si prega di usare il comando seguente per un'installazione senza problemi.
Installa OcrPHP via Composer
composer require fizzday/ocrphpInstalla OcrPHP via Github
git clone https://github.com/fizzday/OcrPHP.git Puoi scaricare la libreria condivisa compilata dal repository GitHub.
Riconoscere ed Estrarre Testo da un'Immagine via PHP
La libreria open source OcrPHP semplifica il caricamento di diversi tipi di immagini e l'estrazione del testo da esse con sole poche righe di codice PHP. Ecco un esempio molto semplice, che utilizza la libreria Imagick per caricare un file immagine e creare un'istanza della classe OcrPHP. Gli sviluppatori possono quindi impostare la lingua e le impostazioni del motore OCR prima di eseguire l'OCR sull'immagine usando il metodo recognize(). Infine, stampa il testo estratto usando il metodo getText().
Come Estrarre Testo da un'Immagine usando la Libreria PHP?
require_once 'OcrPHP/autoload.php';
// Carica il file immagine
$image = new Imagick('path/to/image.jpg');
// Crea un'istanza della classe OcrPHP
$ocr = new OcrPHP();
// Imposta la lingua e le impostazioni del motore OCR
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);
// Esegue l'OCR sull'immagine
$result = $ocr->recognize($image);
// Stampa il testo estratto
echo $result->getText();
Riconoscere Testo in una Lingua Specifica via PHP
La libreria OcrPHP offre supporto per più lingue per eseguire operazioni OCR all'interno di applicazioni PHP. Che il tuo testo sia in inglese, cinese o qualsiasi altra lingua supportata, OcrPHP lo gestisce senza problemi. Per estrarre testo in una lingua specifica, passa il codice della lingua come parametro. Assicurati che il modello linguistico Tesseract corrispondente sia installato. L'esempio seguente mostra come gli sviluppatori possono estrarre testo da immagini in lingua cinese all'interno di applicazioni PHP.
Come Estrarre Testo da un'Immagine in Lingua Cinese via PHP?
require 'vendor/autoload.php';
use Fizzday\Ocr\Ocr;
$imagePath = __DIR__ . '/example-image-chinese.png';
$ocr = new Ocr();
// Estrarre testo in cinese
$text = $ocr->scan($imagePath, 'chi_sim'); // Usa 'eng' per l'inglese
echo "Testo Estratto (Cinese): \n" . $text;
Elaborazione Batch e Automazione OCR via PHP
Per gli sviluppatori che creano applicazioni di elaborazione documenti, l'elaborazione batch può essere una funzionalità preziosa. OcrPHP semplifica il ciclo attraverso una cartella di file immagine ed estrae automaticamente il testo da ciascuno. È perfetto per automatizzare attività come la scansione di fatture, ricevute o libri. Ecco un esempio molto utile che scansiona tutti i file .png nella directory specificata, estrae il testo da ciascuno e lo stampa. Puoi estendere il codice per salvare l'output in un file o in un database, rendendolo uno strumento potente per l'elaborazione dei documenti.
Come Estrarre Testo da più Immagini via Libreria PHP?
require 'vendor/autoload.php';
use Fizzday\Ocr\Ocr;
$directory = __DIR__ . '/images/';
$ocr = new Ocr();
foreach (glob($directory . '*.png') as $imagePath) {
$text = $ocr->scan($imagePath);
echo "Testo da {$imagePath}: \n" . $text . "\n\n";
}
Configurazione Personalizzata e Supporto all'Integrazione
La libreria open source OcrPHP è versatile e orientata agli sviluppatori, semplificando l'integrazione di funzionalità OCR nei progetti PHP. La libreria consente di specificare configurazioni Tesseract personalizzate, come lingua, modalità di segmentazione della pagina e parametri di pre‑elaborazione delle immagini, offrendo flessibilità per adattare i risultati OCR.