PHP biblioteka teksto išgavimui iš paveikslėlių keliose kalbose

Atviro kodo PHP optinio simbolių atpažinimo API leidžia įkelti ir nuskaityti paveikslėlius arba dokumentus, atpažinti ir išgauti tekstą iš paveikslėlių keliose kalbose PHP programose.

Optinio simbolių atpažinimo (OCR) technologija šiandien tapo esminiu įrankiu tekstui išgauti iš paveikslėlių ir dokumentų. Skaitmeninės transformacijos augimas padarė efektyvių ir tikslių OCR sprendimų poreikį svarbesnį nei bet kada. OcrPHP yra labai galinga atviro kodo OCR biblioteka, suteikianti programinės įrangos kūrėjams galimybę kurti patikimas ir mastelio plečiamas OCR programas. Tai PHP pagrindu veikianti OCR biblioteka, kuri naudoja Tesseract OCR variklį – plačiai naudojamą ir itin gerai vertinamą Google sukurtą OCR technologiją. Biblioteka siūlo daugybę funkcijų, tokių kaip dokumentų skenavimas, teksto išgavimas iš paveikslėlių, teksto išgavimas konkrečia kalba, teksto išgavimas iš PDF ir daug daugiau.

OcrPHP biblioteka įtraukė pažangias vaizdo išankstinio apdorojimo technikas, tokias kaip iškrypimo korekcija, dėmų šalinimas ir binarizavimas, siekiant pagerinti OCR tikslumą. Ji palaiko OCR vykdymą keliomis kalbomis, įskaitant anglų, ispanų, prancūzų, vokiečių, italų, portugalų, kinų, japonų ir daugelį kitų. Programinės įrangos kūrėjai gali pritaikyti OCR procesą reguliuodami parametrus, tokius kaip kalba, puslapio segmentavimo režimas ir OCR variklio nustatymai. Biblioteka taip pat turi patikimas klaidų tvarkymo mechanizmus, užtikrinančius sklandų ir efektyvų OCR operacijų vykdymą. Su daugiakalbės paramos, pažangaus vaizdo skenavimo, individualių konfigūracijų ir paprasto integravimo funkcijomis, ji leidžia kūrėjams kurti universalius teksto atpažinimo įrankius su minimaliomis pastangomis ir mažomis išlaidomis.

Iš pirmo žvilgsnio

Apžvalga OcrPHP funkcijų.

Funkcijų apžvalga

Vykdyti OCR
Pridėti OCR galimybes
Atpažinti tekstą daugeliu kalbų
Konvertuoti teksto paveikslėlius
Atpažintas šriftų tekstas
Ieškoti PDF
Kitos kalbos
Kurti OCR programėles
Išsaugoti naršyklėje
Išgauti tekstą
Daugiagijų palaikymas

OcrPHP

OcrPHP palaiko populiarius suspaudimo failų formatus, išvardintus žemiau.

Skaitytojas

PNG, JPEG, BMP, TIFF, TGA, DICOM

Rašytojas

PNG, JPEG, BMP, TIFF

OcrPHP

Platformų nepriklausomumas

OcrPHP reikalauja tik PHP vykdymo aplinkos.

PHP 5.1 ir vėlesnės versijos.

OcrPHP

Pradžia su OcrPHP

Rekomenduojamas OcrPHP įdiegimo būdas – naudoti Composer. Prašome naudoti šią komandą sklandžiam įdiegimui.

Įdiegti OcrPHP per Composer

composer require fizzday/ocrphp

Įdiegti OcrPHP per Github

git clone https://github.com/fizzday/OcrPHP.git

Galite atsisiųsti sukompiliuotą bendrinamą biblioteką iš Github saugyklos.

Atpažinti ir išgauti tekstą iš paveikslėlio naudojant PHP

Atviro kodo OcrPHP biblioteka leidžia programinei įrangai lengvai įkelti įvairius paveikslėlių tipus ir išgauti tekstą iš jų naudojant kelias PHP kodo eilutes. Štai labai paprastas pavyzdys, kuriame naudojama Imagick biblioteka paveikslėlio failui įkelti ir sukuriamas OcrPHP klasės egzempliorius. Vėliau kūrėjai gali nustatyti kalbą ir OCR variklio parametrus prieš atliekant OCR ant paveikslėlio su recognize() metodu. Galiausiai išgautas tekstas išvedamas naudojant getText() metodą.

Kaip išgauti tekstą iš paveikslėlio naudojant PHP biblioteką?

require_once 'OcrPHP/autoload.php';

// Load the image file
$image = new Imagick('path/to/image.jpg');

// Create an instance of the OcrPHP class
$ocr = new OcrPHP();

// Set the language and OCR engine settings
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);

// Perform OCR on the image
$result = $ocr->recognize($image);

// Print the extracted text
echo $result->getText();

Atpažinti tekstą konkrečioje kalboje naudojant PHP

OcrPHP biblioteka suteikia palaikymą kelioms kalboms, leidžiančioms atlikti OCR operacijas PHP programose. Nesvarbu, ar tekstas yra anglų, kinų ar bet kuria kita palaikoma kalba, OcrPHP tai tvarkingai apdoroja. Norint išgauti tekstą konkrečia kalba, reikia perduoti kalbos kodą kaip parametrą. Įsitikinkite, kad atitinkamas Tesseract kalbos modelis yra įdiegtas. Žemiau pateiktas pavyzdys parodo, kaip kūrėjai gali išgauti tekstą iš paveikslėlių kinų kalba PHP programose.

Kaip išgauti tekstą iš paveikslėlio kinų kalba naudojant PHP?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$imagePath = __DIR__ . '/example-image-chinese.png';

$ocr = new Ocr();

// Extract text in Chinese
$text = $ocr->scan($imagePath, 'chi_sim'); // Use 'eng' for English

echo "Extracted Text (Chinese): \n" . $text;

Masinis apdorojimas ir OCR automatizavimas naudojant PHP

Programinės įrangos kūrėjams, kuriant dokumentų apdorojimo programas, masinis apdorojimas gali būti vertinga funkcija. Atviro kodo OcrPHP leidžia kūrėjams lengvai peržvelgti katalogą su paveikslėlių failais ir automatiškai išgauti tekstą iš kiekvieno. Tai puikiai tinka automatizuoti užduotis, tokias kaip sąskaitų, kvitų ar knygų skenavimas. Štai labai naudingas pavyzdys, kuris skenuoja visus .png failus nurodytame kataloge, išgauna tekstą iš kiekvieno ir jį išveda. Galite išplėsti šį pavyzdį, kad išsaugotumėte rezultatą faile arba duomenų bazėje, taip sukurdami galingą įrankį dokumentų apdorojimui.

Kaip išgauti tekstą iš kelių paveikslėlių naudojant PHP biblioteką?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$directory = __DIR__ . '/images/';
$ocr = new Ocr();

foreach (glob($directory . '*.png') as $imagePath) {
    $text = $ocr->scan($imagePath);
    echo "Text from {$imagePath}: \n" . $text . "\n\n";
}

Individuali konfigūracija ir integracijos palaikymas

Atviro kodo OcrPHP yra universalus ir kūrėjams patogus biblioteka, supaprastinanti OCR galimybių integravimą į PHP projektus. Biblioteka leidžia nurodyti individualias Tesseract konfigūracijas, tokias kaip kalba, puslapio segmentavimo režimas ir vaizdo išankstinio apdorojimo parametrai, suteikdama lankstumą pritaikyti OCR rezultatus pagal poreikius.