1. Produse
  2.   OCR
  3.   PHP
  4.   Tesseract OCR pentru PHP
 
  

Bibliotecă PHP cu sursă deschisă pentru operațiuni OCR pe imagini

API-ul gratuit PHP Optical Character Recognition pentru a efectua operațiuni OCR pe imagini, documente scanate și PDF-uri folosind biblioteca Tesseract PHP.

Printre numeroasele instrumente OCR disponibile, Tesseract OCR se remarcă drept unul dintre cele mai puternice și versatile API care le permite dezvoltatorilor de software să creeze aplicații pentru recunoașterea și extragerea textului din diverse surse vizuale populare. Tesseract OCR pentru PHP este un wrapper foarte util pentru a lucra cu Tesseract OCR în cadrul aplicațiilor PHP. Biblioteca open source Tesseract OCR pentru PHP poate îmbunătăți acuratețea OCR prin preprocesarea imaginii. Tehnici precum redimensionarea, binarizarea, eliminarea zgomotului și deformarea pot fi aplicate pentru a îmbunătăți vizibilitatea textului și pentru a elimina orice artefacte care ar putea împiedica recunoașterea.

Biblioteca Tesseract OCR pentru PHP oferă mai multe caracteristici avansate și opțiuni de personalizare pentru a îmbunătăți rezultatele OCR în cadrul aplicațiilor PHP, cum ar fi gestionarea documentelor multilingve, specificarea limbilor dorite în timpul inițializării OCR pentru a îmbunătăți acuratețea pentru anumite limbi, suport pentru moduri de segmentare a paginii, îmbunătățirea acurateței recunoașterii pentru aplicații specializate, asistență de instruire pentru fonturi sau simboluri personalizate sau modele de text specifice, îmbunătățirea accesibilității, digitizarea documentelor, analiza textului, extragerea datelor și multe altele.

Utilizați pachetul Tesseract PHP pentru a transmite imaginea preprocesată motorului Tesseract OCR. Wrapper-ul oferă funcții pentru a executa OCR și a prelua textul recunoscut ca rezultat. Textul extras poate necesita pași suplimentari de post-procesare, cum ar fi verificarea ortografică, formatarea sau modificări specifice limbii. Bibliotecile PHP precum Symfony/string sau Text_LanguageDetect pot fi folosite în aceste scopuri. Prin integrarea Tesseract OCR în proiectele dvs. PHP, dezvoltatorii de software pot eficientiza procesarea documentelor, automatiza extragerea datelor și debloca un nou nivel de eficiență și accesibilitate în aplicațiile lor.

Previous Next

Te astarel pes o Tesseract OCR vaś PHP

O rekomenduime drom te instalisares o Tesseract OCR vaś PHP si te hasnis o Composer. Mangav tumen te hasnin o śerutno komando vaś jekh śukar instalàcia.

Instalisaren Tesseract OCR vaś PHP prekal o Composer

$ composer require thiagoalessio/tesseract_ocr 

Instalisaren Tesseract OCR vaś PHP prekal o Github

git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git 

Tu śaj te lel pes i kompilàciaqi khetani bibliotèka katar o Github repozitòrio.

Kheren o teksto katar o lil andar e PHP Apps

O putardo suro Tesseract OCR vaś PHP biblioteka dineas varesave laćhe funkcie vaś te lel pes o tèksto katar e imaźură labǎrindoj e PHP komande. I biblioteka del diferentne modurja vaś segmentàcia e rigăqi te śaj te kerel buti e diferentne aranźàciença thaj aranźàcie e tekstosqe. Počmin o proceso e extrakciaqo kana ćhives o lil vaj o dokumento savo si les o tèksto savo kames te ćhines. Utilizin o Tesseract PHP wrapper te den o anglal-procesime image ko Tesseract OCR motori. O wrapper del funkcie te kerel pes OCR thaj te lel pes o pindžardo teksto sar rezultato. O egzàmplo so avel sikavel jekh bazako proceso te thovel pes jekh imaźo thaj te lel pes o tèksto anθar late labǎrindoj e PHP komande.

Sar te ćhives o lil thaj te ćhives avri o tèksto labǎrindoj o PHP-esqo kodo?
use TesseractOCR\TesseractOCR;

$imagePath = '/path/to/your/image.jpg';

$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition

$text = $tesseract->run();
echo $text;

O OCR Output andar e PHP Apps

I biblioteka Tesseract OCR vaś PHP putardo źanglipe inklistil jekh but laćhi funkcia vaś te arakhel thaj te kerel buti e OCR-esqe avridipnaske tekstosa and-e PHP aplikacie. Kaśte śaj te garavel pes o avruno tèksto anθ-e varesave popularne formatură sar PDF, TXT, HTML, Word thaj but aver. Ov śaj te kerel buti e pinʒarde tekstosa so si avri lino katar o lil. Palal so mangel pes tumari aplikàcia, śaj te trubul te kerel pes maj dur procesură vaj te analizisarel pes o xramosardo tèksto. E butja save si butivar si validacia e datengo, thovipe e tekstosko, kontrola e ortografiaki, formatiribe, integracia e javere sistemencar vash avansime procesura ja vash e shibake specifikane modifikacie. Le softveresqe kerde śaj te analizisaren lokhes bare volùmură le tekstosqe datenqe save si line katar le dokumentură, katar le socialo medije, vaj katar le klièntură te len śajutnimata, analìza le sentimentosqi, vaj le modelură le tèmenqi.

Arakh e data e patretosqi, baripen thaj garav len anθ-o formato PDF prekal o PHP API

//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();

$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();


// Save the Output to PDF file

echo (new TesseractOCR('img.png'))
    ->configFile('pdf')
    ->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
    ->run();

 Română