PHP Library to Extract Image Text in Multiple Languages

Open Source PHP Optical Character Recognition API allows to Load & Scan Images or Documents, Recognize & Extract Text from Images in Multiple Languages inside PHP Apps.

Optiskās rakstzīmju atpazīšanas (OCR) tehnoloģija ir kļuvusi par būtisku rīku teksta izvilkšanai no attēliem un dokumentiem mūsdienās. Ar digitālās transformācijas pieaugumu pieprasījums pēc efektīviem un precīziem OCR risinājumiem nekad nav bijis lielāks. OcrPHP ir ļoti jaudīga atvērtā koda OCR bibliotēka, kas ļauj programmatūras izstrādātājiem izveidot stabilas un mērogojamas OCR lietojumprogrammas. Tā ir PHP balstīta OCR bibliotēka, kas izmanto Tesseract OCR dzini, plaši izmantotu un augstu novērtētu OCR tehnoloģiju, ko izstrādājusi Google. Bibliotēkā ir daudz funkciju, piemēram, dokumentu skenēšana, teksta izvilkšana no attēliem, teksta izvilkšana konkrētā valodā, teksta izvilkšana no PDF, un daudz kas cits.

OcrPHP bibliotēka ietver uzlabotas attēlu priekšapstrādes tehnoloģijas, piemēram, slīpuma korekciju, trokšņa noņemšanu un binarizāciju, lai uzlabotu OCR precizitāti. Tā atbalsta OCR izpildi vairākās valodās, tostarp angļu, spāņu, franču, vācu, itāļu, portugāļu, ķīniešu, japāņu un daudzās citās. Programmatūras izstrādātāji var pielāgot OCR procesu, regulējot parametrus, piemēram, valodu, lapas segmentācijas režīmu un OCR dzinēja iestatījumus. Bibliotēkā ir iekļauti spēcīgi kļūdu apstrādes mehānismi, lai nodrošinātu, ka OCR operācijas tiek veiksmīgi un efektīvi izpildītas. Ar tādām funkcijām kā daudzvalodu atbalsts, uzlabota attēlu skenēšana, pielāgotas konfigurācijas un vienkārša integrācija, tā ļauj izstrādātājiem izveidot daudzpusīgus teksta atpazīšanas rīkus ar minimālu piepūli un zemu izmaksu.

Pārskats

Pārskats par OcrPHP funkcijām.

Funkciju pārskats

Veikt OCR
Pievienot OCR iespējas
Atpazīt tekstu daudzās valodās
Pārveidot teksta attēlus
Atpazīt fonta tekstu
Meklēt PDF
Citas valodas
Izveidot OCR lietotnes
Saglabāt pārlūkā
Izvilkt tekstu
Vairāku pavedienu atbalsts

OcrPHP

OcrPHP atbalsta populārus saspiešanas failu formātus, kas norādīti zemāk.

Lasītājs

PNG, JPEG, BMP, TIFF, TGA, DICOM

Rakstītājs

PNG, JPEG, BMP, TIFF

OcrPHP

Platformas neatkarība

OcrPHP nepieciešams tikai PHP izpildlaiks.

PHP 5.1 un jaunāks.

OcrPHP

Sākšana ar OcrPHP

Ieteicamais veids, kā instalēt OcrPHP, ir izmantojot Composer. Lūdzu, izmantojiet šādu komandu, lai veiktu instalāciju.

Instalēt OcrPHP, izmantojot Composer

composer require fizzday/ocrphp

Instalēt OcrPHP, izmantojot Github

git clone https://github.com/fizzday/OcrPHP.git

Jūs varat lejupielādēt kompilēto koplietojamo bibliotēku no Github krātuves.

Atpazīt un izvilkt tekstu no attēla, izmantojot PHP

Atvērtā koda OcrPHP bibliotēka ļauj programmatūrai viegli ielādēt dažādus attēlu tipus un izvilkt tekstu no šiem attēliem, izmantojot tikai dažas PHP koda rindas. Šeit ir ļoti vienkāršs piemērs, kas izmanto Imagick bibliotēku, lai ielādētu attēla failu un izveidotu OcrPHP klases instance. Izstrādātāji pēc tam var iestatīt valodu un OCR dzinēja iestatījumus, pirms veic OCR attēlam, izmantojot recognize() metodi. Visbeidzot, tas izvada izvilkto tekstu, izmantojot getText() metodi.

Kā izvilkt tekstu no attēla, izmantojot PHP bibliotēku?

require_once 'OcrPHP/autoload.php';

// Load the image file
$image = new Imagick('path/to/image.jpg');

// Create an instance of the OcrPHP class
$ocr = new OcrPHP();

// Set the language and OCR engine settings
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);

// Perform OCR on the image
$result = $ocr->recognize($image);

// Print the extracted text
echo $result->getText();

Atpazīt tekstu konkrētā valodā, izmantojot PHP

OcrPHP bibliotēka nodrošina atbalstu vairākiem valodām, lai veiktu OCR operācijas PHP lietojumprogrammās. Neatkarīgi no tā, vai jūsu teksts ir angļu, ķīniešu vai kādā citā atbalstītā valodā, OcrPHP to var apstrādāt bez problēmām. Lai izvilktu tekstu konkrētā valodā, nododiet valodas kodu kā parametru. Pārliecinieties, ka atbilstošais Tesseract valodas modelis ir instalēts. Zemāk esošais piemērs parāda, kā izstrādātāji var izvilkt tekstu no attēliem ķīniešu valodā PHP lietojumprogrammās.

Kā izvilkt tekstu no attēla ķīniešu valodā, izmantojot PHP?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$imagePath = __DIR__ . '/example-image-chinese.png';

$ocr = new Ocr();

// Extract text in Chinese
$text = $ocr->scan($imagePath, 'chi_sim'); // Use 'eng' for English

echo "Extracted Text (Chinese): \n" . $text;

Batch apstrāde un OCR automatizācija, izmantojot PHP

Programmatūras izstrādātājiem, kas veido dokumentu apstrādes lietojumprogrammas, batch apstrāde var būt vērtīga funkcija. Atvērtā koda OcrPHP ļauj izstrādātājiem vienkārši pārlūkot direktoriju ar attēlu failiem un automātiski izvilkt tekstu no katra. Tas ir ideāli piemērots uzdevumu automatizēšanai, piemēram, rēķinu, kvītšu vai grāmatu skenēšanai. Šeit ir ļoti noderīgs piemērs, kas skenē visus .png failus norādītajā direktorijā, izvelk tekstu no katra un izvada to. Jūs varat paplašināt šo, lai saglabātu rezultātu failā vai datubāzē, padarot to par spēcīgu rīku dokumentu apstrādei.

Kā izvilkt tekstu no vairākiem attēliem, izmantojot PHP bibliotēku?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$directory = __DIR__ . '/images/';
$ocr = new Ocr();

foreach (glob($directory . '*.png') as $imagePath) {
    $text = $ocr->scan($imagePath);
    echo "Text from {$imagePath}: \n" . $text . "\n\n";
}

Pielāgota konfigurācija un integrācijas atbalsts

Atvērtā koda OcrPHP ir daudzpusīga un izstrādātājiem draudzīga bibliotēka, kas vienkāršo OCR iespēju integrēšanu PHP projektiem. Bibliotēka ļauj norādīt pielāgotas Tesseract konfigurācijas, piemēram, valodu, lapas segmentācijas režīmu un attēlu priekšapstrādes parametrus, nodrošinot elastību, lai pielāgotu OCR rezultātus.