Avoimen lähdekoodin PHP-kirjasto kuvien tekstintunnistustoimintoihin

Ilmainen PHP Optical Character Recognition API OCR-toimintojen suorittamiseen kuville, skannatuille asiakirjoille ja PDF-tiedostoille Tesseract PHP -kirjaston avulla.

Lukuisten OCR-työkalujen joukossa Tesseract OCR erottuu joukosta yksi tehokkaimmista ja monipuolisimmista sovellusliittymistä, jonka avulla ohjelmistokehittäjät voivat luoda sovelluksia tekstin tunnistamiseen ja poimimiseen useista suosituista visuaalisista lähteistä. Tesseract OCR for PHP on erittäin hyödyllinen kääre Tesseract OCR:n kanssa PHP-sovelluksissa. Avoimen lähdekoodin Tesseract OCR for PHP -kirjasto voi parantaa OCR-tarkkuutta esikäsittelemällä kuvan. Tekniikoita, kuten koon muuttaminen, binarisointi, kohinan poisto ja vääristymisen poistaminen, voidaan käyttää parantamaan tekstin näkyvyyttä ja poistamaan tunnistusta ehkäisevät artefaktit.

Tesseract OCR for PHP -kirjasto tarjoaa useita edistyneitä ominaisuuksia ja mukautusvaihtoehtoja OCR-tulosten parantamiseksi PHP-sovelluksissa, kuten monikielisten asiakirjojen käsittely, halutun kielen määrittäminen OCR-alustuksen aikana tiettyjen kielten tarkkuuden parantamiseksi, sivun segmentointitilojen tuki, parantaa tunnistustarkkuutta erikoissovelluksissa, koulutustuki mukautetuille kirjasimille tai symboleille tai tietyille tekstimalleille, parantaa käytettävyyttä, asiakirjojen digitointia, tekstin analytiikkaa, tietojen poiminta ja paljon muuta.

Käytä Tesseract PHP -käärettä esikäsitellyn kuvan välittämiseen Tesseract OCR -moottorille. Kääritys sisältää toimintoja OCR:n suorittamiseen ja tunnistetun tekstin hakemiseen. Poimittu teksti saattaa vaatia lisäkäsittelyvaiheita, kuten oikeinkirjoituksen tarkistusta, muotoilua tai kielikohtaisia muutoksia. PHP-kirjastoja, kuten Symfony/string tai Text_LanguageDetect, voidaan käyttää näihin tarkoituksiin. Integroimalla Tesseract OCR:n PHP-projekteihisi, ohjelmistokehittäjät voivat virtaviivaistaa asiakirjojen käsittelyä, automatisoida tietojen poiminta ja avata sovellusten tehokkuuden ja käytettävyyden uudelle tasolle.

Yhdellä silmäyksellä

Yleiskatsaus Tesseract OCR for PHP -ominaisuuksiin.

Ominaisuuksien yleiskatsaus

Suorita OCR
Lisää OCR-ominaisuudet
Tunnista kuvan teksti
Tekstikuvat
Tunnettu kirjasinteksti
Hae PDF-tiedostosta
Muut kielet
Luo OCR-sovelluksia
Tallenna selaimeen
Poimi teksti
Monisäikeen tuki

Tesseract OCR for PHP

Tesseract OCR for PHP tukee suosittuja alla lueteltuja pakkaustiedostomuotoja.

Lukija

PNG, JPEG, BMP, TIFF, TGA, DICOM

Kirjailija

PNG, JPEG, BMP, TIFF

Tesseract OCR for PHP

Alusta riippumattomuus

Tesseract OCR for PHP edellyttää vain PHP Runtimea.

PHP 5.1 ja uudemmat.

Tesseract OCR for PHP

Tesseract OCR for PHP:n käytön aloittaminen

Suositeltava tapa asentaa Tesseract OCR for PHP on Composer. Käytä seuraavaa komentoa sujuvaan asennukseen.

Asenna Tesseract OCR for PHP Composerin kautta

$ composer require thiagoalessio/tesseract_ocr

Asenna Tesseract OCR PHP:lle Githubin kautta

git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git

Voit ladata käännetyn jaetun kirjaston Githubin-arkistosta.

Pura tekstiä PHP-sovellusten kuvasta

Avoimen lähdekoodin Tesseract OCR for PHP -kirjasto tarjoaa hyödyllisiä ominaisuuksia tekstin poimimiseen kuvista PHP-komentojen avulla. Kirjasto tarjoaa erilaisia sivun segmentointitiloja erilaisten asettelujen ja tekstijärjestelyjen käsittelemiseen. Aloita purkaminen lataamalla kuva tai asiakirja, joka sisältää purettavan tekstin. Käytä Tesseract PHP -käärettä esikäsitellyn kuvan välittämiseen Tesseract OCR -moottorille. Kääritys sisältää toimintoja OCR:n suorittamiseen ja tunnistetun tekstin hakemiseen. Seuraava esimerkki näyttää perusprosessin kuvan lataamiseksi ja tekstin poimimiseksi siitä PHP-komennoilla.

Kuinka ladata kuvia ja purkaa tekstiä PHP-koodilla?

use TesseractOCR\TesseractOCR;

$imagePath = '/path/to/your/image.jpg';

$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition

$text = $tesseract->run();
echo $text;

OCR-tulosteen käsittely PHP-sovelluksissa

Avoimen lähdekoodin Tesseract OCR for PHP -kirjasto sisältää erittäin hyödyllisiä ominaisuuksia OCR:n tulostustekstin tallentamiseen ja käsittelemiseen PHP-sovelluksissa. Se mahdollistaa tekstin tallentamisen joissakin suosituissa muodoissa, kuten PDF, TXT, HTML, Word ja monet muut. Sen avulla voidaan käsitellä kuvasta poimittua tunnistettua tekstiä. Sovelluksesi vaatimuksista riippuen saatat joutua käsittelemään tai analysoimaan poimittua tekstiä edelleen. Yleisiä tehtäviä ovat tietojen validointi, tekstin puhdistus, oikeinkirjoituksen tarkistus, muotoilu, integrointi muihin järjestelmiin edistyksellistä käsittelyä varten tai kielikohtaiset muutokset. Ohjelmistokehittäjät voivat helposti analysoida suuria määriä asiakirjoista, sosiaalisen median syötteistä tai asiakaspalautteista poimittua tekstidataa saadakseen oivalluksia, mielipideanalyysiä tai aiheen mallintamista.

Hae kuvatiedot, kokoa ja tallenna ne PDF-muodossa PHP API:n kautta

//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();

$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();


// Save the Output to PDF file

echo (new TesseractOCR('img.png'))
    ->configFile('pdf')
    ->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
    ->run();