Atvērtā pirmkoda PHP bibliotēka OCR darbībām ar attēliem

Bezmaksas PHP Optical Character Recognition API, lai veiktu OCR darbības ar attēliem, skenētiem dokumentiem un PDF failiem, izmantojot Tesseract PHP bibliotēku.

Starp daudzajiem pieejamajiem OCR rīkiem Tesseract OCR izceļas kā viens no jaudīgākajiem un daudzpusīgākajiem API, kas ļauj programmatūras izstrādātājiem izveidot lietojumprogrammas teksta atpazīšanai un izvilkšanai no dažādiem populāriem vizuāliem avotiem. Tesseract OCR for PHP ir ļoti noderīgs iesaiņojums darbam ar Tesseract OCR PHP lietojumprogrammās. Atvērtā pirmkoda Tesseract OCR PHP bibliotēkai var uzlabot OCR precizitāti, iepriekš apstrādājot attēlu. Lai uzlabotu teksta redzamību un noņemtu visus artefaktus, kas varētu traucēt atpazīšanu, var izmantot tādus paņēmienus kā izmēru maiņa, binarizācija, trokšņu noņemšana un izkliedēšana.

Tesseract OCR PHP bibliotēkai piedāvā vairākas uzlabotas funkcijas un pielāgošanas iespējas, lai uzlabotu OCR rezultātus PHP lietojumprogrammās, piemēram, daudzvalodu dokumentu apstrāde, vajadzīgās valodas(-u) norādīšana OCR inicializācijas laikā, lai uzlabotu precizitāti noteiktām valodām, lapu segmentācijas režīmu atbalsts, uzlabot atpazīšanas precizitāti specializētām lietojumprogrammām, apmācību atbalsts pielāgotiem fontiem vai simboliem vai specifiskiem teksta modeļiem, uzlabot pieejamību, dokumentu digitalizāciju, teksta analīzi, datu ieguvi un daudz ko citu.

Izmantojiet Tesseract PHP iesaiņojumu, lai nosūtītu iepriekš apstrādāto attēlu Tesseract OCR programmai. Iesaiņotājs nodrošina funkcijas, lai izpildītu OCR un rezultātā izgūtu atpazīto tekstu. Izvilktajam tekstam var būt nepieciešamas papildu pēcapstrādes darbības, piemēram, pareizrakstības pārbaude, formatēšana vai valodai specifiskas izmaiņas. Šiem nolūkiem var izmantot tādas PHP bibliotēkas kā Symfony/string vai Text_LanguageDetect. Integrējot Tesseract OCR savos PHP projektos, programmatūras izstrādātāji var racionalizēt dokumentu apstrādi, automatizēt datu ieguvi un savās lietojumprogrammās atvērt jaunu efektivitātes un pieejamības līmeni.

Īsumā

Pārskats par Tesseract OCR PHP funkcijām.

Funkcijas pārskats

Veikt OCR
Pievienojiet OCR iespējas
Atpazīt attēla tekstu
Teksta attēli
Atpazīts fonta teksts
Meklēt PDF failā
Citas valodas
Izveidojiet OCR lietotnes
Saglabāt pārlūkprogrammā
Izvilkt tekstu
Vairāku pavedienu atbalsts

Tesseract OCR for PHP

Tesseract OCR for PHP atbalsta tālāk norādītos populāros saspiešanas failu formātus.

Lasītājs

PNG, JPEG, BMP, TIFF, TGA, DICOM

rakstnieks

PNG, JPEG, BMP, TIFF

Tesseract OCR for PHP

Platformas neatkarība

Tesseract OCR darbam ar PHP ir nepieciešams tikai PHP Runtime.

PHP 5.1 un jaunākas versijas.

Tesseract OCR for PHP

Darba sākšana ar Tesseract OCR for PHP

Ieteicamais veids, kā instalēt Tesseract OCR for PHP, ir izmantot programmu Composer. Lūdzu, izmantojiet šo komandu vienmērīgai instalēšanai.

Instalējiet Tesseract OCR for PHP, izmantojot komponistu

$ composer require thiagoalessio/tesseract_ocr

Instalējiet Tesseract OCR for PHP, izmantojot Github

git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git

Varat lejupielādēt apkopoto koplietojamo bibliotēku no Github krātuves.

Izņemiet tekstu no attēla PHP lietotnēs

Atvērtā pirmkoda Tesseract OCR for PHP bibliotēka ir nodrošinājusi dažas noderīgas funkcijas teksta izvilkšanai no attēliem, izmantojot PHP komandas. Bibliotēka piedāvā dažādus lapu segmentēšanas režīmus, lai apstrādātu dažādus izkārtojumus un teksta izkārtojumus. Sāciet izvilkšanas procesu, ielādējot attēlu vai dokumentu, kurā ir izvelkamais teksts. Izmantojiet Tesseract PHP iesaiņojumu, lai nosūtītu iepriekš apstrādāto attēlu Tesseract OCR programmai. Iesaiņotājs nodrošina funkcijas, lai izpildītu OCR un rezultātā izgūtu atpazīto tekstu. Nākamajā piemērā ir parādīts attēla ielādes pamatprocess un teksta izvilkšana no tā, izmantojot PHP komandas.

Kā ielādēt attēlu un izvilkt tekstu, izmantojot PHP kodu?

use TesseractOCR\TesseractOCR;

$imagePath = '/path/to/your/image.jpg';

$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition

$text = $tesseract->run();
echo $text;

OCR izvades apstrāde PHP lietotnēs

Atvērtā pirmkoda Tesseract OCR for PHP bibliotēkā ir iekļautas ļoti noderīgas funkcijas OCR izvades teksta saglabāšanai un darbam ar PHP lietojumprogrammām. Tas ļauj saglabāt tekstu dažos populāros formātos, piemēram, PDF, TXT, HTML, Word un daudzos citos. Tas ļauj apstrādāt atpazīto tekstu, kas iegūts no attēla. Atkarībā no lietojumprogrammas prasībām, iespējams, jums būs jāturpina apstrādāt vai analizēt izvilkto tekstu. Parastie uzdevumi ietver datu validāciju, teksta tīrīšanu, pareizrakstības pārbaudi, formatēšanu, integrāciju ar citām sistēmām uzlabotai apstrādei vai valodai raksturīgām modifikācijām. Programmatūras izstrādātāji var viegli analizēt lielus teksta datu apjomus, kas iegūti no dokumentiem, sociālo mediju plūsmām vai klientu atsauksmēm, lai gūtu ieskatu, noskaņojuma analīzi vai tēmu modelēšanu.

Attēla datu izgūšana, izmēra un saglabāšana PDF formātā, izmantojot PHP API

//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();

$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();


// Save the Output to PDF file

echo (new TesseractOCR('img.png'))
    ->configFile('pdf')
    ->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
    ->run();