Open Source PHP-bibliotek til OCR-operationer på billeder

Gratis PHP Optical Character Recognition API til at udføre OCR-operationer på billeder, scannede dokumenter og PDF'er ved hjælp af Tesseract PHP-bibliotek.

Blandt de mange tilgængelige OCR-værktøjer skiller Tesseract OCR sig ud som en af de mest kraftfulde og alsidige API, der gør det muligt for softwareudviklere at skabe applikationer til at genkende og udtrække tekst fra forskellige populære visuelle kilder. Tesseract OCR til PHP er en meget nyttig indpakning til at arbejde med Tesseract OCR i PHP-applikationer. Open source-biblioteket Tesseract OCR til PHP kan forbedre OCR-nøjagtigheden ved at forbehandle billedet. Teknikker såsom ændring af størrelse, binarisering, fjernelse af støj og skråstilling kan anvendes til at forbedre tekstens synlighed og fjerne eventuelle artefakter, der kan hindre genkendelse.

Tesseract OCR til PHP-bibliotek tilbyder adskillige avancerede funktioner og tilpasningsmuligheder for at forbedre OCR-resultater i PHP-applikationer, såsom håndtering af flersprogede dokumenter, specificering af det eller de ønskede sprog under OCR-initialisering for at forbedre nøjagtigheden for specifikke sprog, sidesegmenteringstilstande, understøttelse, forbedring af genkendelsesnøjagtigheden for specialiserede applikationer, træningsstøtte til brugerdefinerede skrifttyper eller symboler eller specifikke tekstmønstre, forbedring af tilgængelighed, dokumentdigitalisering, tekstanalyse, dataudtræk og mange flere.

Brug Tesseract PHP-indpakningen til at sende det forbehandlede billede til Tesseract OCR-motoren. Indpakningen giver funktioner til at udføre OCR og hente den genkendte tekst som et resultat. Den udtrukne tekst kan kræve yderligere efterbehandlingstrin såsom stavekontrol, formatering eller sprogspecifikke ændringer. PHP-biblioteker som Symfony/string eller Text_LanguageDetect kan bruges til disse formål. Ved at integrere Tesseract OCR i dine PHP-projekter kan softwareudviklere strømline dokumentbehandling, automatisere dataudtræk og låse op for et nyt niveau af effektivitet og tilgængelighed i deres applikationer.

Oversigt

En oversigt over Tesseract OCR til PHP-funktioner.

Oversigt over funktioner

Udfør OCR
Tilføj OCR-funktioner
Genkend billedtekst
Konverter billeder af tekst
Genkendt skrifttypetekst
Søg i PDF
Andre sprog
Opret OCR-apps
Gem i browser
Udtræk tekst
Multi-threading Support

Tesseract OCR for PHP

Tesseract OCR til PHP understøtter populære komprimeringsfilformater anført nedenfor.

Læser

PNG, JPEG, BMP, TIFF, TGA, DICOM

Forfatter

PNG, JPEG, BMP, TIFF

Tesseract OCR for PHP

Platformuafhængighed

Tesseract OCR til PHP kræver kun PHP Runtime.

PHP 5.1 og nyere.

Tesseract OCR for PHP

Kom godt i gang med Tesseract OCR til PHP

Den anbefalede måde at installere Tesseract OCR til PHP på er at bruge Composer. Brug venligst følgende kommando for en problemfri installation.

Installer Tesseract OCR til PHP via Composer

$ composer require thiagoalessio/tesseract_ocr

Install Tesseract OCR for PHP via Github

git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git

You can download the compiled shared library from Github repository.

Udtræk tekst fra billede i PHP-apps

Open source-biblioteket Tesseract OCR til PHP har givet nogle nyttige funktioner til at udtrække tekst fra billeder ved hjælp af PHP-kommandoer. Biblioteket tilbyder forskellige sidesegmenteringstilstande til at håndtere forskellige layouts og tekstarrangementer. Start udtrækningsprocessen ved at indlæse billedet eller dokumentet, der indeholder den tekst, du vil udtrække. Brug Tesseract PHP-indpakningen til at sende det forbehandlede billede til Tesseract OCR-motoren. Indpakningen giver funktioner til at udføre OCR og hente den genkendte tekst som et resultat. Følgende eksempel viser en grundlæggende proces med at indlæse et billede og udtrække tekst fra det ved hjælp af PHP-kommandoer.

Hvordan indlæses billede og udtrækkes tekst ved hjælp af PHP-kode?

use TesseractOCR\TesseractOCR;

$imagePath = '/path/to/your/image.jpg';

$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition

$text = $tesseract->run();
echo $text;

Håndtering af OCR-output i PHP-apps

Open source Tesseract OCR til PHP-biblioteket har inkluderet en meget nyttig funktion til at gemme og arbejde med OCR's outputtekst i PHP-applikationer. Det giver mulighed for at gemme udteksten i nogle populære formater som PDF, TXT, HTML, Word og mange flere. Det gør det muligt at håndtere den genkendte tekst udtrukket fra billedet. Afhængigt af din ansøgnings krav skal du muligvis behandle eller analysere den udtrukne tekst yderligere. Almindelige opgaver omfatter datavalidering, tekstrensning, stavekontrol, formatering, integration med andre systemer til avanceret behandling eller sprogspecifikke ændringer. Softwareudviklere kan nemt analysere store mængder tekstdata udtrukket fra dokumenter, feeds på sociale medier eller kundefeedback for at udlede indsigt, følelsesanalyse eller emnemodellering.

Hent billeddata, størrelse og gem dem i PDF-format via PHP API

//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();

$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();


// Save the Output to PDF file

echo (new TesseractOCR('img.png'))
    ->configFile('pdf')
    ->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
    ->run();