Open Source PHP-bibliotek för OCR-operationer på bilder

Gratis PHP Optical Character Recognition API för att utföra OCR-operationer på bilder, skannade dokument och PDF-filer med hjälp av Tesseract PHP-bibliotek.

Bland de många tillgängliga OCR-verktygen utmärker sig Tesseract OCR som en av de mest kraftfulla och mångsidiga API som gör det möjligt för mjukvaruutvecklare att skapa applikationer för att känna igen och extrahera text från olika populära visuella källor. Tesseract OCR för PHP är ett mycket användbart omslag för att arbeta med Tesseract OCR i PHP-applikationer. Tesseract OCR för PHP-biblioteket med öppen källkod kan förbättra OCR-noggrannheten genom att förbehandla bilden. Tekniker som storleksändring, binarisering, brusborttagning och snedställning kan användas för att förbättra textens synlighet och ta bort alla artefakter som kan hindra igenkänning.

Tesseract OCR för PHP-biblioteket erbjuder flera avancerade funktioner och anpassningsalternativ för att förbättra OCR-resultaten i PHP-applikationer, såsom hantering av flerspråkiga dokument, specificering av önskat språk under OCR-initiering för att förbättra noggrannheten för specifika språk, stöd för sidsegmenteringslägen, förbättra igenkänningsnoggrannheten för specialiserade applikationer, utbildningsstöd för anpassade typsnitt eller symboler, eller specifika textmönster, förbättra tillgängligheten, dokumentdigitalisering, textanalys, dataextraktion och många fler.

Använd Tesseract PHP-omslaget för att skicka den förbehandlade bilden till Tesseract OCR-motorn. Omslaget tillhandahåller funktioner för att utföra OCR och hämta den igenkända texten som ett resultat. Den extraherade texten kan kräva ytterligare efterbearbetningssteg såsom stavningskontroll, formatering eller språkspecifika ändringar. PHP-bibliotek som Symfony/string eller Text_LanguageDetect kan användas för dessa ändamål. Genom att integrera Tesseract OCR i dina PHP-projekt kan mjukvaruutvecklare effektivisera dokumentbehandlingen, automatisera datautvinning och låsa upp en ny nivå av effektivitet och tillgänglighet i sina applikationer.

En överblick

En översikt över Tesseract OCR för PHP-funktioner.

Funktioner Översikt

Utför OCR
Lägg till OCR-funktioner
Känn igen bildtext
Konvertera bilder av text
Känt teckensnittstext
Sök i PDF
Andra språk
Skapa OCR-appar
Spara i webbläsaren
Extrahera text
Stöd för flera trådar

Tesseract OCR for PHP

Tesseract OCR för PHP stöder populära komprimeringsfilformat som anges nedan.

Läsare

PNG, JPEG, BMP, TIFF, TGA, DICOM

Författare

PNG, JPEG, BMP, TIFF

Tesseract OCR for PHP

Plattformsoberoende

Tesseract OCR för PHP kräver endast PHP Runtime.

PHP 5.1 och senare.

Tesseract OCR for PHP

Komma igång med Tesseract OCR för PHP

Det rekommenderade sättet att installera Tesseract OCR för PHP är att använda Composer. Använd följande kommando för en smidig installation.

Installera Tesseract OCR för PHP via Composer

$ composer require thiagoalessio/tesseract_ocr

Installera Tesseract OCR för PHP via Github

git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git

Du kan ladda ner det kompilerade delade biblioteket från Github-förrådet.

Extrahera text från bild i PHP-appar

Öppen källkod Tesseract OCR för PHP-biblioteket har tillhandahållit några användbara funktioner för att extrahera text från bilder med PHP-kommandon. Biblioteket erbjuder olika sidsegmenteringslägen för att hantera olika layouter och textarrangemang. Starta extraheringsprocessen genom att ladda bilden eller dokumentet som innehåller texten du vill extrahera. Använd Tesseract PHP-omslaget för att skicka den förbehandlade bilden till Tesseract OCR-motorn. Omslaget tillhandahåller funktioner för att utföra OCR och hämta den igenkända texten som ett resultat. Följande exempel visar en grundläggande process för att ladda en bild och extrahera text från den med PHP-kommandon.

Hur laddar jag in bild och extraherar text med PHP-kod?

use TesseractOCR\TesseractOCR;

$imagePath = '/path/to/your/image.jpg';

$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition

$text = $tesseract->run();
echo $text;

Hantera OCR-utdata i PHP-appar

Tesseract OCR för PHP-biblioteket med öppen källkod har inkluderat en mycket användbar funktion för att spara och arbeta med OCR:s utdatatext i PHP-applikationer. Det tillåter att spara texten i vissa populära format som PDF, TXT, HTML, Word och många fler. Det gör det möjligt att hantera den igenkända texten som extraherats från bilden. Beroende på din ansökans krav kan du behöva bearbeta eller analysera den extraherade texten ytterligare. Vanliga uppgifter inkluderar datavalidering, textrensning, stavningskontroll, formatering, integration med andra system för avancerad bearbetning eller språkspecifika modifieringar. Mjukvaruutvecklare kan enkelt analysera stora volymer textdata som extraherats från dokument, flöden på sociala medier eller kundfeedback för att få insikter, sentimentanalys eller ämnesmodellering.

Hämta bilddata, storlek och spara den i PDF-format via PHP API

//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();

$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();


// Save the Output to PDF file

echo (new TesseractOCR('img.png'))
    ->configFile('pdf')
    ->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
    ->run();