PHP Library to Extract Image Text in Multiple Languages

Open Source PHP Optical Character Recognition API allows to Load & Scan Images or Documents, Recognize & Extract Text from Images in Multiple Languages inside PHP Apps.

Optisk tegngenkend (OCR) teknologi er blevet et uundværligt værktøj til at udtrække tekst fra billeder og dokumenter i dag. Med den digitale transformation er behovet for effektive og præcise OCR-løsninger større end nogensinde. OcrPHP er et meget kraftfuldt open source OCR-bibliotek, der giver softwareudviklere mulighed for at bygge robuste og skalerbare OCR-applikationer. Det er et PHP-baseret OCR-bibliotek, der benytter Tesseract OCR-motoren, en bredt anvendt og højt anerkendt OCR-teknologi udviklet af Google. Biblioteket indeholder talrige funktioner, såsom dokumentscanning, udtræk af tekst fra billeder, tekstudtræk på et specifikt sprog, udtræk af tekst fra PDF‑filer og meget mere.

OcrPHP-biblioteket har inkluderet avancerede billedforbehandlingsteknikker, såsom retningkorrektion, støjfjernelse og binarisering, for at forbedre OCR‑nøjagtigheden. Det understøtter OCR på flere sprog, herunder engelsk, spansk, fransk, tysk, italiensk, portugisisk, kinesisk, japansk og mange flere. Softwareudviklere kan tilpasse OCR‑processen ved at justere parametre som sprog, sideopdelings‑mode og OCR‑motorindstillinger. Biblioteket har robuste fejlhåndteringsmekanismer, så OCR‑operationer udføres glat og effektivt. Med funktioner som flersprogsunderstøttelse, avanceret billedscanning, brugerdefinerede konfigurationer og enkel integration, giver det udviklere mulighed for at skabe alsidige tekstgenkendelsesværktøjer med minimal indsats og lav omkostning.

Et overblik

En oversigt over OcrPHP-funktioner.

Features Overview

Udfør OCR
Tilføj OCR-funktioner
Genkende tekst på mange sprog
Konverter billeder af tekst
Genkendt skrifttype-tekst
Søg i PDF
Andre sprog
Opret OCR-apps
Gem i browseren
Udtræk tekst
Understøttelse af multitrådning

OcrPHP

OcrPHP understøtter populære komprimeringsfilformater listet nedenfor.

Læser

PNG, JPEG, BMP, TIFF, TGA, DICOM

Skriver

PNG, JPEG, BMP, TIFF

OcrPHP

Platformuafhængighed

OcrPHP kræver kun PHP-runtime.

PHP 5.1 og nyere.

OcrPHP

Kom i gang med OcrPHP

Den anbefalede måde at installere OcrPHP på er ved at bruge Composer. Brug venligst følgende kommando for en problemfri installation.

Install OcrPHP via Composer

composer require fizzday/ocrphp

Install OcrPHP via Github

git clone https://github.com/fizzday/OcrPHP.git

Du kan downloade det kompilerede delte bibliotek fra GitHub repository.

Genkend og udtræk tekst fra et billede via PHP

Det open source OcrPHP-bibliotek gør det nemt for software at indlæse forskellige billedtyper og udtrække tekst fra disse billeder med kun et par linjer PHP‑kode. Her er et meget simpelt eksempel, der bruger Imagick‑biblioteket til at indlæse en billedfil og oprette en instans af OcrPHP‑klassen. Udviklere kan derefter sætte sprog‑ og OCR‑motorindstillinger, før de udfører OCR på billedet med metoden recognize(). Til sidst udskrives den udtrukne tekst med metoden getText().

How to Extract Text from an Image using PHP Library?

require_once 'OcrPHP/autoload.php';

// Load the image file
$image = new Imagick('path/to/image.jpg');

// Create an instance of the OcrPHP class
$ocr = new OcrPHP();

// Set the language and OCR engine settings
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);

// Perform OCR on the image
$result = $ocr->recognize($image);

// Print the extracted text
echo $result->getText();

Genkend tekst på et specifikt sprog via PHP

OcrPHP-biblioteket har understøttelse af flere sprog til at udføre OCR‑operationer i PHP‑applikationer. Uanset om din tekst er på engelsk, kinesisk eller et andet understøttet sprog, kan OcrPHP håndtere den problemfrit. For at udtrække tekst på et specifikt sprog, send sprogkoden som parameter. Sørg for, at den tilsvarende Tesseract‑sprogsmodel er installeret. Følgende eksempel viser, hvordan udviklere kan udtrække tekst fra billeder på kinesisk i PHP‑applikationer.

How to Extract Text from an Image in Chinses Language via PHP?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$imagePath = __DIR__ . '/example-image-chinese.png';

$ocr = new Ocr();

// Extract text in Chinese
$text = $ocr->scan($imagePath, 'chi_sim'); // Use 'eng' for English

echo "Extracted Text (Chinese): \n" . $text;

Batchbehandling og OCR-automatisering via PHP

For softwareudviklere, der bygger dokumentbehandlingsapplikationer, kan batchbehandling være en værdifuld funktion. Det open source OcrPHP gør det let for udviklere at gennemløbe en mappe med billedfiler og automatisk udtrække tekst fra hver enkelt. Dette er perfekt til automatisering af opgaver som scanning af fakturaer, kvitteringer eller bøger. Her er et meget nyttigt eksempel, der scanner alle .png‑filer i den angivne mappe, udtrækker tekst fra hver og udskriver den. Du kan udvide eksemplet til at gemme output i en fil eller database, hvilket gør det til et kraftfuldt værktøj til dokumentbehandling.

How to Extract Text from Multiple Images via PHP Library?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$directory = __DIR__ . '/images/';
$ocr = new Ocr();

foreach (glob($directory . '*.png') as $imagePath) {
    $text = $ocr->scan($imagePath);
    echo "Text from {$imagePath}: \n" . $text . "\n\n";
}

Tilpasset konfiguration og integrationssupport

Det open source OcrPHP er et alsidigt og udvikler‑venligt bibliotek, der forenkler integration af OCR‑funktioner i PHP‑projekter. Biblioteket giver dig mulighed for at angive brugerdefinerede Tesseract‑konfigurationer, såsom sprog, sideopdelings‑mode og billedforbehandlingsparametre, hvilket giver fleksibilitet til at skræddersy OCR‑resultater.