Atvirojo kodo PHP biblioteka, skirta OCR operacijoms su vaizdais
Nemokama PHP Optinio simbolių atpažinimo API, skirta OCR operacijoms atlikti su vaizdais, nuskaitytais dokumentais ir PDF failais naudojant Tesseract PHP biblioteką.
Tarp daugybės galimų OCR įrankių Tesseract OCR išsiskiria kaip viena galingiausių ir universaliausių API, leidžianti programinės įrangos kūrėjams kurti programas, skirtas tekstui atpažinti ir išgauti iš įvairių populiarių vaizdo šaltinių. Tesseract OCR for PHP yra labai naudingas įvynioklis, skirtas dirbti su Tesseract OCR PHP programose. Atvirojo kodo Tesseract OCR, skirta PHP bibliotekai, gali pagerinti OCR tikslumą iš anksto apdorodama vaizdą. Norint pagerinti teksto matomumą ir pašalinti bet kokius artefaktus, kurie gali trukdyti atpažinti, galima taikyti tokius metodus kaip dydžio keitimas, dvejetainis nustatymas, triukšmo pašalinimas ir iškraipymas.
Tesseract OCR, skirta PHP bibliotekai, siūlo keletą išplėstinių funkcijų ir tinkinimo parinkčių, skirtų pagerinti OCR rezultatus PHP programose, pvz., tvarkyti daugiakalbius dokumentus, nurodyti pageidaujamą (-as) kalbą (-as) OCR inicijavimo metu, siekiant pagerinti konkrečių kalbų tikslumą, puslapio segmentavimo režimų palaikymą, tobulinti specializuotų programų atpažinimo tikslumą, mokyti naudoti pasirinktinius šriftus ar simbolius arba konkrečius teksto šablonus, pagerinti prieinamumą, dokumentų skaitmeninimą, teksto analizę, duomenų išgavimą ir daug daugiau.
Naudokite Tesseract PHP paketą, kad iš anksto apdorotas vaizdas būtų perduotas Tesseract OCR varikliui. Įvynioklis suteikia funkcijas, skirtas atlikti OCR ir gauti atpažintą tekstą. Išskirtam tekstui gali prireikti papildomų tolesnio apdorojimo veiksmų, pvz., rašybos tikrinimo, formatavimo arba konkrečios kalbos pakeitimų. Šiems tikslams gali būti naudojamos PHP bibliotekos, tokios kaip Symfony/string arba Text_LanguageDetect. Integruodami Tesseract OCR į savo PHP projektus, programinės įrangos kūrėjai gali supaprastinti dokumentų apdorojimą, automatizuoti duomenų išgavimą ir atverti naują savo programų efektyvumo ir prieinamumo lygį.
Pradžia su Tesseract OCR, skirta PHP
Rekomenduojamas būdas įdiegti Tesseract OCR for PHP yra naudoti Composer. Norėdami sklandžiai įdiegti, naudokite šią komandą.
Įdiekite „Tesseract OCR“, skirtą PHP, naudodami „Composer“
$ composer require thiagoalessio/tesseract_ocr
Įdiekite „Tesseract OCR“, skirtą PHP, naudodami „Github“
git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git
Sukompiliuotą bendrinamą biblioteką galite atsisiųsti iš Github saugyklos.
Ištraukite tekstą iš vaizdo PHP programose
Atvirojo kodo Tesseract OCR, skirta PHP bibliotekai, suteikė keletą naudingų funkcijų, leidžiančių išgauti tekstą iš vaizdų naudojant PHP komandas. Biblioteka siūlo skirtingus puslapių segmentavimo režimus, kad būtų galima tvarkyti įvairius maketus ir teksto išdėstymus. Pradėkite ištraukimo procesą įkeldami vaizdą arba dokumentą, kuriame yra norimas išgauti tekstas. Norėdami perduoti iš anksto apdorotą vaizdą į Tesseract OCR variklį, naudokite Tesseract PHP paketą. Įvynioklis suteikia funkcijas, skirtas atlikti OCR ir gauti atpažintą tekstą. Šiame pavyzdyje parodytas pagrindinis vaizdo įkėlimo ir teksto ištraukimo iš jo naudojant PHP komandas procesas.
Kaip įkelti vaizdą ir ištraukti tekstą naudojant PHP kodą?
use TesseractOCR\TesseractOCR;
$imagePath = '/path/to/your/image.jpg';
$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition
$text = $tesseract->run();
echo $text;
OCR išvesties tvarkymas PHP programose
Atvirojo kodo Tesseract OCR, skirta PHP bibliotekai, įtraukta labai naudingų funkcijų, leidžiančių išsaugoti ir dirbti su OCR išvesties tekstu PHP programose. Tai leidžia išsaugoti tekstą kai kuriais populiariais formatais, tokiais kaip PDF, TXT, HTML, Word ir daugelis kitų. Tai leidžia tvarkyti atpažintą tekstą, ištrauktą iš vaizdo. Atsižvelgiant į jūsų programos reikalavimus, gali tekti toliau apdoroti arba analizuoti ištrauktą tekstą. Įprastos užduotys apima duomenų tikrinimą, teksto valymą, rašybos tikrinimą, formatavimą, integravimą su kitomis sistemomis, kad būtų galima atlikti pažangų apdorojimą arba atlikti specifinius kalbos pakeitimus. Programinės įrangos kūrėjai gali lengvai analizuoti didelius tekstinių duomenų kiekius, išgautus iš dokumentų, socialinės žiniasklaidos sklaidos kanalų ar klientų atsiliepimų, kad gautų įžvalgų, nuotaikų analizę ar temų modeliavimą.
Gaukite vaizdo duomenis, dydį ir išsaugokite juos PDF formatu per PHP API
//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();
$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();
// Save the Output to PDF file
echo (new TesseractOCR('img.png'))
->configFile('pdf')
->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
->run();