Libreria PHP open source per operazioni OCR su immagini
API gratuita di riconoscimento ottico dei caratteri PHP per eseguire operazioni OCR su immagini, documenti scansionati e PDF utilizzando la libreria Tesseract PHP.
Tra i numerosi strumenti OCR disponibili, Tesseract OCR si distingue come una delle API più potenti e versatili che consente agli sviluppatori di software di creare applicazioni per riconoscere ed estrarre testo da varie fonti visive popolari. Tesseract OCR per PHP è un wrapper molto utile per lavorare con Tesseract OCR all'interno delle applicazioni PHP. La libreria open source Tesseract OCR per PHP può migliorare la precisione dell'OCR preelaborando l'immagine. È possibile applicare tecniche come il ridimensionamento, la binarizzazione, la rimozione del rumore e l'allineamento per migliorare la visibilità del testo e rimuovere eventuali artefatti che potrebbero ostacolare il riconoscimento.
La libreria Tesseract OCR per PHP offre diverse funzionalità avanzate e opzioni di personalizzazione per migliorare i risultati dell'OCR all'interno delle applicazioni PHP, come la gestione di documenti multilingue, la specifica della lingua desiderata durante l'inizializzazione dell'OCR per migliorare la precisione per lingue specifiche, il supporto delle modalità di segmentazione della pagina, miglioramento dell'accuratezza del riconoscimento per applicazioni specializzate, supporto alla formazione su caratteri o simboli personalizzati o modelli di testo specifici, miglioramento dell'accessibilità, digitalizzazione dei documenti, analisi del testo, estrazione dei dati e molto altro.
Utilizza il wrapper Tesseract PHP per passare l'immagine preelaborata al motore Tesseract OCR. Il wrapper fornisce funzioni per eseguire l'OCR e recuperare di conseguenza il testo riconosciuto. Il testo estratto potrebbe richiedere ulteriori passaggi di post-elaborazione come il controllo ortografico, la formattazione o modifiche specifiche della lingua. A questo scopo possono essere utilizzate librerie PHP come Symfony/string o Text_LanguageDetect. Integrando Tesseract OCR nei tuoi progetti PHP, gli sviluppatori di software possono semplificare l'elaborazione dei documenti, automatizzare l'estrazione dei dati e sbloccare un nuovo livello di efficienza e accessibilità nelle loro applicazioni.
Introduzione a Tesseract OCR per PHP
Il modo consigliato per installare Tesseract OCR per PHP è utilizzare Composer. Si prega di utilizzare il seguente comando per un'installazione fluida.
Installa Tesseract OCR per PHP tramite Composer
$ composer require thiagoalessio/tesseract_ocr
Installa Tesseract OCR per PHP tramite Github
git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git
Puoi scaricare la libreria condivisa compilata dal repository Github.
Estrai testo dall'immagine all'interno delle app PHP
La libreria open source Tesseract OCR per PHP ha fornito alcune funzionalità utili per estrarre testo dalle immagini utilizzando i comandi PHP. La libreria offre diverse modalità di segmentazione della pagina per gestire vari layout e disposizioni del testo. Avvia il processo di estrazione caricando l'immagine o il documento che contiene il testo che desideri estrarre. Utilizza il wrapper Tesseract PHP per passare l'immagine preelaborata al motore Tesseract OCR. Il wrapper fornisce funzioni per eseguire l'OCR e recuperare di conseguenza il testo riconosciuto. L'esempio seguente mostra un processo di base per caricare un'immagine ed estrarne il testo utilizzando i comandi PHP.
Come caricare immagini ed estrarre testo utilizzando il codice PHP?
use TesseractOCR\TesseractOCR;
$imagePath = '/path/to/your/image.jpg';
$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition
$text = $tesseract->run();
echo $text;
Gestione dell'output OCR all'interno delle app PHP
La libreria open source Tesseract OCR per PHP ha incluso funzionalità molto utili per salvare e lavorare con il testo di output dell'OCR all'interno delle applicazioni PHP. Consente di salvare il testo in uscita in alcuni formati popolari come PDF, TXT, HTML, Word e molti altri. Permette di gestire il testo riconosciuto estratto dall'immagine. A seconda dei requisiti dell'applicazione, potrebbe essere necessario elaborare o analizzare ulteriormente il testo estratto. Le attività comuni includono la convalida dei dati, la pulizia del testo, il controllo ortografico, la formattazione, l'integrazione con altri sistemi per l'elaborazione avanzata o modifiche specifiche della lingua. Gli sviluppatori di software possono facilmente analizzare grandi volumi di dati di testo estratti da documenti, feed di social media o feedback dei clienti per ricavare approfondimenti, analisi del sentiment o modellazione degli argomenti.
Recupera i dati dell'immagine, ridimensionali e salvali in formato PDF tramite API PHP
//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();
$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();
// Save the Output to PDF file
echo (new TesseractOCR('img.png'))
->configFile('pdf')
->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
->run();