1. Termékek
  2.   OCR
  3.   PHP
  4.   Tesseract OCR for PHP
 
  

Nyílt forráskódú PHP könyvtár az OCR műveletekhez képeken

Ingyenes PHP Optical Character Recognition API, amellyel OCR műveleteket hajthat végre képeken, szkennelt dokumentumokon és PDF-eken a Tesseract PHP könyvtár használatával.

A számos elérhető OCR-eszköz közül a Tesseract OCR kiemelkedik az egyik legerősebb és legsokoldalúbb API-ként, amely lehetővé teszi a szoftverfejlesztők számára, hogy alkalmazásokat hozzanak létre szövegek felismerésére és kinyerésére különböző népszerű vizuális forrásokból. A Tesseract OCR for PHP egy nagyon hasznos wrapper a Tesseract OCR-rel való együttműködéshez PHP alkalmazásokon belül. A nyílt forráskódú Tesseract OCR for PHP könyvtár javíthatja az OCR pontosságát a kép előfeldolgozásával. A szöveg láthatóságának javítására és a felismerést akadályozó műtermékek eltávolítására olyan technikák alkalmazhatók, mint az átméretezés, a binarizálás, a zaj eltávolítása és a torzítás.

A Tesseract OCR for PHP könyvtár számos fejlett szolgáltatást és testreszabási lehetőséget kínál az OCR-eredmények javítására a PHP alkalmazásokon belül, például többnyelvű dokumentumok kezelése, a kívánt nyelv(ek) meghatározása az OCR inicializálása során, hogy javítsa a pontosságot bizonyos nyelvek esetén, oldalszegmentálási módok támogatása, javítja a felismerési pontosságot speciális alkalmazásokhoz, oktatási támogatást az egyéni betűtípusokhoz vagy szimbólumokhoz vagy meghatározott szövegmintákhoz, javítja a hozzáférhetőséget, a dokumentumok digitalizálását, a szövegelemzést, az adatkinyerést és még sok mást.

Használja a Tesseract PHP burkolóját az előfeldolgozott kép átadásához a Tesseract OCR motornak. A burkoló funkciókat biztosít az OCR végrehajtásához és a felismert szöveg lekéréséhez. A kivonatolt szöveg további utófeldolgozási lépéseket igényelhet, például helyesírás-ellenőrzést, formázást vagy nyelvspecifikus módosításokat. A PHP-könyvtárak, például a Symfony/string vagy a Text_LanguageDetect használhatók erre a célra. A Tesseract OCR-nek a PHP-projektjeibe való integrálásával a szoftverfejlesztők egyszerűsíthetik a dokumentumfeldolgozást, automatizálhatják az adatkinyerést, és a hatékonyság és a hozzáférhetőség új szintjét nyithatják meg alkalmazásaikban.

Previous Next

Kezdő lépések a Tesseract OCR for PHP használatával

A Tesseract OCR for PHP telepítésének javasolt módja a Composer. Kérjük, használja a következő parancsot a zökkenőmentes telepítéshez.

Tesseract OCR for PHP telepítése a Composeren keresztül

$ composer require thiagoalessio/tesseract_ocr 

Tesseract OCR for PHP telepítése Githubon keresztül

git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git 

Az összeállított megosztott könyvtárat letöltheti a Github tárhelyről.

Szöveg kibontása a PHP-alkalmazásokon belüli képből

A nyílt forráskódú Tesseract OCR for PHP könyvtár néhány hasznos funkciót kínál a képekből PHP-parancsok segítségével történő szövegek kinyeréséhez. A könyvtár különböző oldalszegmentálási módokat kínál a különféle elrendezések és szövegelrendezések kezelésére. Indítsa el a kibontási folyamatot a kivonatolni kívánt szöveget tartalmazó kép vagy dokumentum betöltésével. Használja a Tesseract PHP burkolóját az előfeldolgozott kép átadásához a Tesseract OCR motornak. A burkoló funkciókat biztosít az OCR végrehajtásához és a felismert szöveg lekéréséhez. A következő példa egy kép betöltésének és szövegének PHP parancsok segítségével történő kinyerésének alapvető folyamatát mutatja be.

Hogyan tölthetünk be képet és bonthatunk ki szöveget PHP kóddal?

use TesseractOCR\TesseractOCR;

$imagePath = '/path/to/your/image.jpg';

$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition

$text = $tesseract->run();
echo $text;

OCR-kimenetek kezelése PHP-alkalmazásokon belül

A nyílt forráskódú Tesseract OCR for PHP könyvtár nagyon hasznos funkciókat tartalmazott az OCR kimeneti szövegének a PHP alkalmazásokon belüli mentéséhez és kezeléséhez. Lehetővé teszi a szöveg elmentését néhány népszerű formátumba, mint például PDF, TXT, HTML, Word és még sok más. Lehetővé teszi a képből kinyert felismert szöveg kezelését. Az alkalmazás követelményeitől függően előfordulhat, hogy tovább kell feldolgoznia vagy elemeznie kell a kivont szöveget. A gyakori feladatok közé tartozik az adatellenőrzés, a szövegtisztítás, a helyesírás-ellenőrzés, a formázás, a más rendszerekkel való integráció a fejlett feldolgozáshoz vagy a nyelvspecifikus módosításokhoz. A szoftverfejlesztők könnyedén elemezhetik a dokumentumokból, közösségimédia-hírcsatornákból vagy vásárlói visszajelzésekből kinyert nagy mennyiségű szöveges adatot, így betekintést nyerhetnek, hangulatelemzést vagy témamodellezést nyerhetnek.

Képadatok lekérése, méretezése és mentése PDF formátumban a PHP API-n keresztül

//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();

$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();


// Save the Output to PDF file

echo (new TesseractOCR('img.png'))
    ->configFile('pdf')
    ->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
    ->run();

 Magyar