PHP könyvtár a képek szövegének kinyerésére több nyelven

Nyílt forráskódú PHP optikai karakterfelismerő (OCR) API lehetővé teszi képek vagy dokumentumok betöltését és beolvasását, szöveg felismerését és kinyerését képekről több nyelven PHP alkalmazásokban.

Az optikai karakterfelismerés (OCR) technológia napjainkban alapvető eszközzé vált a képek és dokumentumok szövegének kinyeréséhez. A digitális transzformáció erősödésével a hatékony és pontos OCR megoldások iránti igény sosem volt ilyen sürgető. Az OcrPHP egy nagyon erőteljes nyílt forráskódú OCR könyvtár, amely lehetővé teszi a szoftverfejlesztők számára robusztus és skálázható OCR alkalmazások építését. Ez egy PHP-alapú OCR könyvtár, amely a Google által fejlesztett, széles körben használt és nagyra becsült Tesseract OCR motorra támaszkodik. A könyvtár számos funkcióval rendelkezik, például dokumentumok beolvasása, szöveg kinyerése képekről, adott nyelven történő szövegkivonás, PDF‑ekből történő szövegkivonás és még sok más.

Az OcrPHP könyvtár fejlett képelőfeldolgozási technikákat tartalmaz, mint a kiegyenesítés, zajcsökkentés és binarizálás, amelyek javítják az OCR pontosságát. Támogatja az OCR végrehajtását több nyelven, köztük angol, spanyol, francia, német, olasz, portugál, kínai, japán és még sok más nyelven. A fejlesztők testre szabhatják az OCR folyamatot a nyelv, az oldalszegmentálási mód és az OCR motor beállításainak módosításával. A könyvtár robusztus hibakezelési mechanizmusokkal rendelkezik, hogy az OCR műveletek zökkenőmentesen és hatékonyan fussanak. A többnyelvű támogatás, a fejlett képolvasás, az egyedi konfigurációk és az egyszerű integráció révén a fejlesztők kevés erőfeszítéssel és alacsony költséggel hozhatnak létre sokoldalú szövegfelismerő eszközöket.

Áttekintés

Az OcrPHP funkcióinak áttekintése.

Funkciók áttekintése

OCR végrehajtása
OCR képességek hozzáadása
Szöveg felismerése sok nyelven
Szöveges képek konvertálása
Felismert betűtípus szöveg
PDF keresése
Egyéb nyelvek
OCR alkalmazások létrehozása
Mentés a böngészőbe
Szöveg kinyerése
Többszálú támogatás

OcrPHP

Az OcrPHP támogatja az alább felsorolt népszerű tömörítési fájlformátumokat.

Olvasó

PNG, JPEG, BMP, TIFF, TGA, DICOM

Író

PNG, JPEG, BMP, TIFF

OcrPHP

Platformfüggetlenség

Az OcrPHP csak PHP futtatókörnyezetet igényel.

PHP 5.1 és újabb.

OcrPHP

Az OcrPHP használatának megkezdése

Az OcrPHP telepítésének ajánlott módja a Composer használata. Kérjük, használja a következő parancsot a zökkenőmentes telepítéshez.

OcrPHP telepítése Composerrel

composer require fizzday/ocrphp

OcrPHP telepítése Githubon

git clone https://github.com/fizzday/OcrPHP.git

A lefordított megosztott könyvtárat letöltheti a Github tárolóból.

Szöveg felismerése és kinyerése képről PHP segítségével

Az nyílt forráskódú OcrPHP könyvtár egyszerűvé teszi a szoftverek számára különböző típusú képek betöltését és a szöveg kinyerését ezekből a képekből néhány PHP sorral. Itt egy nagyon egyszerű példa, amely az Imagick könyvtárat használja egy képfájl betöltéséhez és egy OcrPHP osztálypéldány létrehozásához. A fejlesztők ezután beállíthatják a nyelvet és az OCR motor beállításait, mielőtt a recognize() metódussal végrehajtanák az OCR‑t a képen. Végül a getText() metódussal kiírják a kinyert szöveget.

Hogyan nyerjünk ki szöveget egy képből PHP könyvtár használatával?

require_once 'OcrPHP/autoload.php';

// Load the image file
$image = new Imagick('path/to/image.jpg');

// Create an instance of the OcrPHP class
$ocr = new OcrPHP();

// Set the language and OCR engine settings
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);

// Perform OCR on the image
$result = $ocr->recognize($image);

// Print the extracted text
echo $result->getText();

Szöveg felismerése egy adott nyelven PHP segítségével

Az OcrPHP könyvtár több nyelv támogatását biztosítja az OCR műveletek PHP alkalmazásokon belüli végrehajtásához. Akár angol, akár kínai, vagy bármely más támogatott nyelv, az OcrPHP zökkenőmentesen kezeli. Egy adott nyelven történő szövegkivonáshoz adja meg a nyelvkódot paraméterként. Győződjön meg róla, hogy a megfelelő Tesseract nyelvi modell telepítve van. Az alábbi példa azt mutatja, hogyan nyerhetnek ki szöveget kínai nyelvű képekből PHP alkalmazásokban.

Hogyan nyerjünk ki szöveget egy kínai nyelvű képből PHP segítségével?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$imagePath = __DIR__ . '/example-image-chinese.png';

$ocr = new Ocr();

// Extract text in Chinese
$text = $ocr->scan($imagePath, 'chi_sim'); // Use 'eng' for English

echo "Extracted Text (Chinese): \n" . $text;

Kötegelt feldolgozás és OCR automatizálás PHP-val

A dokumentumfeldolgozó alkalmazásokat fejlesztő szoftverfejlesztők számára a kötegelt feldolgozás értékes funkció lehet. Az nyílt forráskódú OcrPHP egyszerűvé teszi a fejlesztők számára, hogy egy könyvtárban lévő képfájlok között ciklusban haladjanak, és automatikusan kinyerjék a szöveget minden egyes fájlból. Ez tökéletes az olyan feladatok automatizálásához, mint számlák, nyugták vagy könyvek beolvasása. Az alábbi nagyon hasznos példa minden .png fájlt beolvas a megadott könyvtárból, kinyeri a szöveget, és kiírja. A kimenetet fájlba vagy adatbázisba is menthetik, így erőteljes eszközzé válik a dokumentumfeldolgozáshoz.

Hogyan nyerjünk ki szöveget több képből PHP könyvtár segítségével?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$directory = __DIR__ . '/images/';
$ocr = new Ocr();

foreach (glob($directory . '*.png') as $imagePath) {
    $text = $ocr->scan($imagePath);
    echo "Text from {$imagePath}: \n" . $text . "\n\n";
}

Egyedi konfiguráció és integrációs támogatás

Az nyílt forráskódú OcrPHP egy sokoldalú és fejlesztőbarát könyvtár, amely egyszerűsíti az OCR képességek integrálását PHP projektekbe. A könyvtár lehetővé teszi egyedi Tesseract konfigurációk megadását, például nyelv, oldalszegmentálási mód és képelőfeldolgozási paraméterek, így rugalmasan testre szabható az OCR eredmény.