PHP-bibliotheek om Tekst uit Afbeeldingen te Extraheren in Meerdere Talen

Open Source PHP Optical Character Recognition API maakt het mogelijk om Afbeeldingen of Documenten te Laden & Scannen, Tekst te Herkennen & uit Afbeeldingen te Extraheren in Meerdere Talen binnen PHP-applicaties.

Optical Character Recognition (OCR) technology has become an essential tool for extracting text from images and documents nowadays. With the rise of digital transformation, the need for efficient and accurate OCR solutions has never been more pressing. OcrPHP is a very powerful open source OCR library that empowers software developers to build robust and scalable OCR applications. It is a PHP-based OCR library that utilizes the Tesseract OCR engine, a widely-used and highly-regarded OCR technology developed by Google. There are numerous features part of the library, such as document scanning, extracting text from images, text extraction in a specific language, extracting text form PDFs, and many more.

De OcrPHP-bibliotheek bevat geavanceerde beeldvoorverwerkingstechnieken, zoals het rechtzetten van scheefstand, het verwijderen van vlekken en binarisatie, om de OCR-nauwkeurigheid te verbeteren. Ze ondersteunt het uitvoeren van OCR in meerdere talen, waaronder Engels, Spaans, Frans, Duits, Italiaans, Portugees, Chinees, Japans en nog veel meer. Software‑ontwikkelaars kunnen het OCR‑proces aanpassen door parameters zoals taal, paginasegmentatiemodus en OCR‑engine‑instellingen te wijzigen. De bibliotheek bevat robuuste foutafhandelingsmechanismen om ervoor te zorgen dat OCR‑bewerkingen soepel en efficiënt worden uitgevoerd. Met functies zoals ondersteuning voor meerdere talen, geavanceerde beeldscanning, aangepaste configuraties en eenvoudige integratie, stelt ze ontwikkelaars in staat veelzijdige tekstherkenningstools te maken met weinig inspanning en lage kosten.

In één oogopslag

Een overzicht van OcrPHP-functies.

Features Overview

OCR uitvoeren
OCR-mogelijkheden toevoegen
tekst in vele talen herkennen
Afbeeldingen met tekst converteren
Herkennde lettertype-tekst
PDF doorzoeken
Andere talen
OCR-apps maken
Opslaan in browser
Tekst extraheren
Ondersteuning voor multithreading

OcrPHP

OcrPHP supports popular compression file formats listed below.

Lezer

PNG, JPEG, BMP, TIFF, TGA, DICOM

Schrijver

PNG, JPEG, BMP, TIFF

OcrPHP

Platformonafhankelijkheid

OcrPHP vereist alleen een PHP-runtime.

PHP 5.1 and above.

OcrPHP

Aan de slag met OcrPHP

De aanbevolen manier om OcrPHP te installeren is via Composer. Gebruik alstublieft de volgende opdracht voor een soepele installatie.

Installeer OcrPHP via Composer

composer require fizzday/ocrphp

Installeer OcrPHP via Github

git clone https://github.com/fizzday/OcrPHP.git

U kunt de gecompileerde gedeelde bibliotheek downloaden van de Github repository.

Herken en extraheren tekst uit een afbeelding via PHP

De open source OcrPHP-bibliotheek maakt het gemakkelijk voor software om verschillende soorten afbeeldingen te laden en tekst uit die afbeeldingen te extraheren met slechts een paar regels PHP‑code. Hier is een heel eenvoudig voorbeeld dat de Imagick‑bibliotheek gebruikt om een afbeeldingsbestand te laden en een instantie van de OcrPHP‑klasse te maken. Ontwikkelaars kunnen daarna de taal en OCR‑engine‑instellingen instellen voordat ze OCR op de afbeelding uitvoeren met de recognize()‑methode. Ten slotte wordt de geëxtraheerde tekst afgedrukt met de getText()‑methode.

Hoe tekst uit een afbeelding te extraheren met de PHP‑bibliotheek?

require_once 'OcrPHP/autoload.php';

// Load the image file
$image = new Imagick('path/to/image.jpg');

// Create an instance of the OcrPHP class
$ocr = new OcrPHP();

// Set the language and OCR engine settings
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);

// Perform OCR on the image
$result = $ocr->recognize($image);

// Print the extracted text
echo $result->getText();

Tekst herkennen in een specifieke taal via PHP

De OcrPHP-bibliotheek biedt ondersteuning voor meerdere talen om OCR‑bewerkingen uit te voeren binnen PHP‑applicaties. Of uw tekst nu in het Engels, Chinees of een andere ondersteunde taal staat, OcrPHP kan het naadloos verwerken. Om tekst in een specifieke taal te extraheren, geeft u de taalcodes als parameter door. Zorg ervoor dat het bijbehorende Tesseract‑taalmodel geïnstalleerd is. Het volgende voorbeeld laat zien hoe ontwikkelaars tekst uit een afbeelding in de Chinese taal kunnen extraheren binnen PHP‑applicaties.

Hoe tekst uit een afbeelding in de Chinese taal te extraheren via PHP?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$imagePath = __DIR__ . '/example-image-chinese.png';

$ocr = new Ocr();

// Extract text in Chinese
$text = $ocr->scan($imagePath, 'chi_sim'); // Use 'eng' for English

echo "Extracted Text (Chinese): \n" . $text;

Batchverwerking en OCR-automatisering via PHP

Voor software‑ontwikkelaars die documentverwerkingsapplicaties bouwen, kan batchverwerking een waardevolle functie zijn. De open source OcrPHP maakt het gemakkelijk voor ontwikkelaars om door een map met afbeeldingsbestanden te itereren en automatisch tekst uit elk bestand te extraheren. Dit is perfect voor het automatiseren van taken zoals het scannen van facturen, bonnen of boeken. Hier is een zeer bruikbaar voorbeeld dat alle .png‑bestanden in de opgegeven map scant, tekst uit elk bestand haalt en deze afdrukt. U kunt dit uitbreiden om de output op te slaan in een bestand of database, waardoor het een krachtig hulpmiddel is voor documentverwerking.

Hoe tekst uit meerdere afbeeldingen te extraheren met de PHP‑bibliotheek?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$directory = __DIR__ . '/images/';
$ocr = new Ocr();

foreach (glob($directory . '*.png') as $imagePath) {
    $text = $ocr->scan($imagePath);
    echo "Text from {$imagePath}: \n" . $text . "\n\n";
}

Aangepaste configuratie & integratieondersteuning

De open source OcrPHP is een veelzijdige en ontwikkelaar‑vriendelijke bibliotheek die de integratie van OCR‑functionaliteit in PHP‑projecten vereenvoudigt. De bibliotheek stelt u in staat aangepaste Tesseract‑configuraties te specificeren, zoals taal, paginasegmentatiemodus en beeldvoorverwerkingsparameters, waardoor u de OCR‑resultaten kunt afstemmen op uw specifieke behoeften.