1. Producten
  2.   OCR
  3.   PHP
  4.   Tesseract OCR for PHP
 
  

Open Source PHP-bibliotheek voor OCR-bewerkingen op afbeeldingen

Gratis PHP Optical Character Recognition API om OCR-bewerkingen uit te voeren op afbeeldingen, gescande documenten en PDF's met behulp van de Tesseract PHP-bibliotheek.

Van de vele beschikbare OCR-tools valt Tesseract OCR op als een van de krachtigste en meest veelzijdige API's waarmee softwareontwikkelaars applicaties kunnen maken voor het herkennen en extraheren van tekst uit verschillende populaire visuele bronnen. Tesseract OCR voor PHP is een zeer nuttige wrapper om met Tesseract OCR in PHP-applicaties te werken. De open source Tesseract OCR voor PHP-bibliotheek kan de OCR-nauwkeurigheid verbeteren door de afbeelding voor te verwerken. Technieken zoals het formaat wijzigen, binariseren, ruis verwijderen en rechtzetten kunnen worden toegepast om de zichtbaarheid van de tekst te verbeteren en eventuele artefacten te verwijderen die de herkenning kunnen belemmeren.

De Tesseract OCR voor PHP-bibliotheek biedt verschillende geavanceerde functies en aanpassingsopties om de OCR-resultaten binnen PHP-applicaties te verbeteren, zoals het verwerken van meertalige documenten, het specificeren van de gewenste taal (talen) tijdens OCR-initialisatie om de nauwkeurigheid voor specifieke talen te verbeteren, ondersteuning voor paginasegmentatiemodi, verbetering van de herkenningsnauwkeurigheid voor gespecialiseerde toepassingen, trainingsondersteuning voor aangepaste lettertypen of symbolen, of specifieke tekstpatronen, verbetering van de toegankelijkheid, digitalisering van documenten, tekstanalyse, gegevensextractie en nog veel meer.

Gebruik de Tesseract PHP-wrapper om de voorverwerkte afbeelding door te geven aan de Tesseract OCR-engine. De wrapper biedt functies om OCR uit te voeren en als resultaat de herkende tekst op te halen. Voor de geëxtraheerde tekst zijn mogelijk extra nabewerkingsstappen nodig, zoals spellingcontrole, opmaak of taalspecifieke aanpassingen. Voor deze doeleinden kunnen PHP-bibliotheken zoals Symfony/string of Text_LanguageDetect worden gebruikt. Door Tesseract OCR in uw PHP-projecten te integreren, kunnen softwareontwikkelaars de documentverwerking stroomlijnen, de gegevensextractie automatiseren en een nieuw niveau van efficiëntie en toegankelijkheid in hun applicaties ontgrendelen.

Previous Next

Aan de slag met Tesseract OCR voor PHP

De aanbevolen manier om Tesseract OCR voor PHP te installeren is met behulp van Composer. Gebruik het volgende commando voor een vlotte installatie.

Installeer Tesseract OCR voor PHP via Composer

$ composer require thiagoalessio/tesseract_ocr 

Install Tesseract OCR for PHP via Github

git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git 

Je kunt de gecompileerde gedeelde bibliotheek downloaden van de Github repository.

Tekst uit afbeelding extraheren in PHP-apps

De open source Tesseract OCR voor PHP-bibliotheek biedt een aantal handige functies voor het extraheren van tekst uit afbeeldingen met behulp van PHP-opdrachten. De bibliotheek biedt verschillende paginasegmentatiemodi om verschillende lay-outs en tekstindelingen te verwerken. Start het extractieproces door de afbeelding of het document te laden dat de tekst bevat die u wilt extraheren. Gebruik de Tesseract PHP-wrapper om de voorverwerkte afbeelding door te geven aan de Tesseract OCR-engine. De wrapper biedt functies om OCR uit te voeren en als resultaat de herkende tekst op te halen. Het volgende voorbeeld toont een basisproces voor het laden van een afbeelding en het extraheren van tekst daaruit met behulp van PHP-opdrachten.

Hoe kan ik een afbeelding laden en tekst extraheren met behulp van PHP-code?

use TesseractOCR\TesseractOCR;

$imagePath = '/path/to/your/image.jpg';

$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition

$text = $tesseract->run();
echo $text;

OCR-uitvoer verwerken in PHP-apps

De open source Tesseract OCR voor PHP-bibliotheek bevat zeer nuttige functies voor het opslaan en werken met OCR-uitvoertekst in PHP-applicaties. Hiermee kunt u de uitgaande tekst opslaan in een aantal populaire formaten zoals PDF, TXT, HTML, Word en nog veel meer. Hiermee kunt u de herkende tekst verwerken die uit de afbeelding is gehaald. Afhankelijk van de vereisten van uw toepassing moet u de geëxtraheerde tekst mogelijk verder verwerken of analyseren. Veel voorkomende taken zijn onder meer gegevensvalidatie, tekstopschoning, spellingcontrole, opmaak, integratie met andere systemen voor geavanceerde verwerking of taalspecifieke wijzigingen. Softwareontwikkelaars kunnen eenvoudig grote hoeveelheden tekstgegevens analyseren die zijn geëxtraheerd uit documenten, feeds van sociale media of feedback van klanten om inzichten, sentimentanalyses of onderwerpmodellering af te leiden.

Afbeeldingsgegevens ophalen, vergroten en opslaan in PDF-formaat via PHP API

//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();

$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();


// Save the Output to PDF file

echo (new TesseractOCR('img.png'))
    ->configFile('pdf')
    ->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
    ->run();

 Dutch