PHP Library to Extract Image Text in Multiple Languages

Open Source PHP Optical Character Recognition API allows to Load & Scan Images or Documents, Recognize & Extract Text from Images in Multiple Languages inside PHP Apps.

Tehnologia de Recunoaștere Optică a Caracterelor (OCR) a devenit un instrument esențial pentru extragerea textului din imagini și documente în zilele noastre. Odată cu creșterea transformării digitale, nevoia de soluții OCR eficiente și precise nu a fost niciodată mai acută. OcrPHP este o bibliotecă OCR open source foarte puternică care permite dezvoltatorilor de software să construiască aplicații OCR robuste și scalabile. Este o bibliotecă OCR bazată pe PHP care utilizează motorul Tesseract OCR, o tehnologie OCR larg utilizată și foarte apreciată, dezvoltată de Google. Bibliotecă include numeroase funcționalități, cum ar fi scanarea documentelor, extragerea textului din imagini, extragerea textului într-o limbă specifică, extragerea textului din PDF-uri și multe altele.

Biblioteca OcrPHP a inclus tehnici avansate de preprocesare a imaginii, cum ar fi corectarea înclinării, eliminarea zgomotului și binarizarea, pentru a îmbunătăți acuratețea OCR. Suportă efectuarea OCR în mai multe limbi, inclusiv engleză, spaniolă, franceză, germană, italiană, portugheză, chineză, japoneză și multe altele. Dezvoltatorii pot personaliza procesul OCR ajustând parametri precum limba, modul de segmentare a paginii și setările motorului OCR. Biblioteca include mecanisme robuste de gestionare a erorilor pentru a asigura că operațiunile OCR sunt executate fluent și eficient. Cu funcționalități precum suport multi-limbă, scanare avansată a imaginilor, configurări personalizate și integrare simplă, permite dezvoltatorilor să creeze instrumente versatile de recunoaștere a textului cu efort redus și cost scăzut.

Privire de ansamblu

O prezentare generală a funcționalităților OcrPHP.

Prezentare funcționalități

Execută OCR
Adaugă capabilități OCR
Recunoaște text în multe limbi
Convertește imagini cu text
Recunoaște text din fonturi
Caută în PDF
Alte limbi
Creează aplicații OCR
Salvează în browser
Extrage text
Suport pentru multi-threading

OcrPHP

OcrPHP suportă formatele de fișiere de compresie populare enumerate mai jos.

Cititor

PNG, JPEG, BMP, TIFF, TGA, DICOM

Scriitor

PNG, JPEG, BMP, TIFF

OcrPHP

Independență de platformă

OcrPHP necesită doar runtime PHP.

PHP 5.1 și versiuni superioare.

OcrPHP

Începeți cu OcrPHP

Modul recomandat pentru instalarea OcrPHP este prin Composer. Vă rugăm să folosiți comanda de mai jos pentru o instalare fără probleme.

Instalați OcrPHP prin Composer

composer require fizzday/ocrphp

Instalați OcrPHP prin Github

git clone https://github.com/fizzday/OcrPHP.git

Puteți descărca biblioteca partajată compilată de pe depozitul Github.

Recunoașteți și extrageți text dintr-o imagine cu PHP

Biblioteca open source OcrPHP facilitează încărcarea diferitelor tipuri de imagini și extragerea textului din acestea cu doar câteva linii de cod PHP. Iată un exemplu foarte simplu, care folosește biblioteca Imagick pentru a încărca un fișier imagine și a crea o instanță a clasei OcrPHP. Dezvoltatorii pot apoi seta limba și setările motorului OCR înainte de a efectua OCR pe imagine utilizând metoda recognize(). În final, textul extras este afișat cu metoda getText().

Cum să extrageți text dintr-o imagine utilizând biblioteca PHP?

require_once 'OcrPHP/autoload.php';

// Încarcă fișierul imagine
$image = new Imagick('path/to/image.jpg');

// Creează o instanță a clasei OcrPHP
$ocr = new OcrPHP();

// Setează limba și setările motorului OCR
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);

// Execută OCR pe imagine
$result = $ocr->recognize($image);

// Afișează textul extras
echo $result->getText();

Recunoașteți text într-o limbă specifică cu PHP

Biblioteca OcrPHP oferă suport pentru multiple limbi pentru a efectua operațiuni OCR în aplicații PHP. Indiferent dacă textul este în engleză, chineză sau orice altă limbă suportată, OcrPHP îl poate gestiona fără probleme. Pentru a extrage text într-o limbă specifică, transmiteți codul limbii ca parametru. Asigurați-vă că modelul de limbă Tesseract corespunzător este instalat. Exemplul de mai jos arată cum dezvoltatorii pot extrage text din imagini în limba chineză în cadrul aplicațiilor PHP.

Cum să extrageți text dintr-o imagine în limba chineză cu PHP?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$imagePath = __DIR__ . '/example-image-chinese.png';

$ocr = new Ocr();

// Extrage text în chineză
$text = $ocr->scan($imagePath, 'chi_sim'); // Folosiți 'eng' pentru engleză

echo "Text extras (Chineză): \n" . $text;

Procesare în lot și automatizare OCR cu PHP

Pentru dezvoltatorii de software care construiesc aplicații de procesare a documentelor, procesarea în lot poate fi o funcționalitate valoroasă. OcrPHP open source simplifică bucla printr-un director de fișiere imagine și extragerea automată a textului din fiecare. Este perfect pentru automatizarea sarcinilor precum scanarea facturilor, chitanțelor sau cărților. Iată un exemplu foarte util care scanează toate fișierele .png din directorul specificat, extrage textul din fiecare și îl afișează. Puteți extinde acest exemplu pentru a salva rezultatele într-un fișier sau bază de date, transformându-l într-un instrument puternic pentru procesarea documentelor.

Cum să extrageți text din mai multe imagini cu biblioteca PHP?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$directory = __DIR__ . '/images/';
$ocr = new Ocr();

foreach (glob($directory . '*.png') as $imagePath) {
    $text = $ocr->scan($imagePath);
    echo "Text din {$imagePath}: \n" . $text . "\n\n";
}

Configurare personalizată și suport pentru integrare

OcrPHP open source este o bibliotecă versatilă și prietenoasă pentru dezvoltatori, care simplifică integrarea capabilităților OCR în proiectele PHP. Biblioteca permite specificarea de configurări personalizate pentru Tesseract, cum ar fi limba, modul de segmentare a paginii și parametrii de preprocesare a imaginii, oferind flexibilitate pentru a adapta rezultatele OCR la nevoile specifice.