1. Produkter
  2.   OCR
  3.   PHP
  4.   Tesseract OCR for PHP
 
  

Open Source PHP-bibliotek for OCR-operasjoner på bilder

Gratis PHP Optical Character Recognition API for å utføre OCR-operasjoner på bilder, skannede dokumenter og PDF-er ved hjelp av Tesseract PHP-bibliotek.

Blant de mange OCR-verktøyene som er tilgjengelige, skiller Tesseract OCR seg ut som en av de kraftigste og mest allsidige API-ene som gjør det mulig for programvareutviklere å lage applikasjoner for å gjenkjenne og trekke ut tekst fra forskjellige populære visuelle kilder. Tesseract OCR for PHP er en veldig nyttig innpakning for å jobbe med Tesseract OCR i PHP-applikasjoner. Åpen kildekode Tesseract OCR for PHP-biblioteket kan forbedre OCR-nøyaktigheten ved å forhåndsbehandle bildet. Teknikker som endring av størrelse, binarisering, fjerning av støy og skråstilling kan brukes for å forbedre tekstens synlighet og fjerne eventuelle gjenstander som kan hindre gjenkjenning.

Tesseract OCR for PHP-bibliotek tilbyr flere avanserte funksjoner og tilpasningsalternativer for å forbedre OCR-resultater i PHP-applikasjoner, for eksempel håndtering av flerspråklige dokumenter, spesifisering av ønsket språk under OCR-initialisering for å forbedre nøyaktigheten for spesifikke språk, støtte for sidesegmenteringsmoduser, forbedre gjenkjenningsnøyaktigheten for spesialiserte applikasjoner, opplæringsstøtte for tilpassede fonter eller symboler, eller spesifikke tekstmønstre, forbedre tilgjengeligheten, dokumentdigitalisering, tekstanalyse, datautvinning og mye mer.

Bruk Tesseract PHP-innpakningen for å sende det forhåndsbehandlede bildet til Tesseract OCR-motoren. Innpakningen gir funksjoner for å utføre OCR og hente den gjenkjente teksten som et resultat. Den utpakkede teksten kan kreve ytterligere etterbehandlingstrinn som stavekontroll, formatering eller språkspesifikke modifikasjoner. PHP-biblioteker som Symfony/string eller Text_LanguageDetect kan brukes til disse formålene. Ved å integrere Tesseract OCR i PHP-prosjektene dine, kan programvareutviklere strømlinjeforme dokumentbehandling, automatisere datautvinning og låse opp et nytt nivå av effektivitet og tilgjengelighet i applikasjonene sine.

Previous Next

Kom i gang med Tesseract OCR for PHP

Den anbefalte måten å installere Tesseract OCR for PHP på er å bruke Composer. Bruk følgende kommando for en jevn installasjon.

Installer Tesseract OCR for PHP via Composer

$ composer require thiagoalessio/tesseract_ocr 

Installer Tesseract OCR for PHP via Github

git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git 

Du kan laste ned det kompilerte delte biblioteket fra Github-depotet.

trekk ut tekst fra bilde i PHP-apper

Åpen kildekode Tesseract OCR for PHP-biblioteket har gitt noen nyttige funksjoner for å trekke ut tekst fra bilder ved hjelp av PHP-kommandoer. Biblioteket tilbyr forskjellige sidesegmenteringsmoduser for å håndtere forskjellige oppsett og tekstarrangementer. Start utvinningsprosessen ved å laste inn bildet eller dokumentet som inneholder teksten du vil trekke ut. Bruk Tesseract PHP-innpakningen til å sende det forhåndsbehandlede bildet til Tesseract OCR-motoren. Innpakningen gir funksjoner for å utføre OCR og hente den gjenkjente teksten som et resultat. Følgende eksempel viser en grunnleggende prosess for å laste et bilde og trekke ut tekst fra det ved hjelp av PHP-kommandoer.

Hvordan laster jeg inn bilde og trekker ut tekst ved hjelp av PHP-kode?

use TesseractOCR\TesseractOCR;

$imagePath = '/path/to/your/image.jpg';

$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition

$text = $tesseract->run();
echo $text;

Håndtering av OCR-utdata i PHP-apper

Open source Tesseract OCR for PHP-biblioteket har inkludert en svært nyttig funksjon for å lagre og jobbe med OCRs utdatatekst i PHP-applikasjoner. Det lar deg lagre teksten i noen populære formater som PDF, TXT, HTML, Word og mange flere. Den lar deg håndtere den gjenkjente teksten hentet fra bildet. Avhengig av søknadens krav, må du kanskje behandle eller analysere den utpakkede teksten videre. Vanlige oppgaver inkluderer datavalidering, tekstrensing, stavekontroll, formatering, integrering med andre systemer for avansert prosessering eller språkspesifikke modifikasjoner. Programvareutviklere kan enkelt analysere store mengder tekstdata hentet fra dokumenter, sosiale medier eller tilbakemeldinger fra kunder for å få innsikt, sentimentanalyse eller emnemodellering.

Hent bildedata, størrelse og lagre dem i PDF-format via PHP API

//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();

$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();


// Save the Output to PDF file

echo (new TesseractOCR('img.png'))
    ->configFile('pdf')
    ->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
    ->run();

 Norsk