PHP-kirjasto kuvan tekstin poimintaan useilla kielillä

Avoimen lähdekoodin PHP Optical Character Recognition -API mahdollistaa kuvien tai asiakirjojen lataamisen ja skannaamisen, tekstin tunnistamisen ja poiminnan kuvista useilla kielillä PHP-sovelluksissa.

Optinen merkkien tunnistus (OCR) -teknologia on nykyään olennainen työkalu tekstin poimimiseen kuvista ja asiakirjoista. Digitaalisen muutoksen myötä tehokkaiden ja tarkkojen OCR-ratkaisujen tarve on kasvanut ennennäkemättömästi. OcrPHP on erittäin tehokas avoimen lähdekoodin OCR-kirjasto, joka antaa ohjelmistokehittäjille mahdollisuuden rakentaa kestäviä ja skaalautuvia OCR-sovelluksia. Se on PHP-pohjainen OCR-kirjasto, joka hyödyntää Google‑yrityksen kehittämää Tesseract OCR -moottoria, laajalti käytettyä ja arvostettua OCR-teknologiaa. Kirjastoon sisältyy lukuisia ominaisuuksia, kuten asiakirjojen skannaus, tekstin poiminta kuvista, tekstin poiminta tietyllä kielellä, tekstin poiminta PDF‑tiedostoista ja paljon muuta.

OcrPHP‑kirjasto sisältää edistyneitä kuvan esikäsittelytekniikoita, kuten kuvan suoran asennon korjausta (deskewing), kohinan poistoa (despeckling) ja binarisointia, OCR‑tarkkuuden parantamiseksi. Se tukee OCR‑toimintaa useilla kielillä, mukaan lukien englanti, espanja, ranska, saksa, italia, portugali, kiina, japani ja monia muita. Ohjelmistokehittäjät voivat räätälöidä OCR‑prosessia säätämällä esimerkiksi kieltä, sivun segmentointitilaa ja OCR‑moottorin asetuksia. Kirjasto sisältää myös vankat virheenkäsittelymekanismit, jotka varmistavat OCR‑toimintojen sujuvan ja tehokkaan suorituksen. Monikielisen tuen, kehittyneen kuvan skannauksen, mukautettavien asetusten ja helpon integroinnin avulla se mahdollistaa kehittäjille monipuolisten tekstintunnistustyökalujen luomisen vähäisellä vaivalla ja alhaisilla kustannuksilla.

Katsaus

Yleiskatsaus OcrPHP-ominaisuuksiin.

Ominaisuuksien yleiskatsaus

Suorita OCR
Lisää OCR-ominaisuuksia
Tunnista tekstiä monilla kielillä
Muunna tekstiä sisältäviä kuvia
Tunnistettu fonttiteksti
Etsi PDF
Muut kielet
Luo OCR-sovelluksia
Tallenna selaimeen
Poimi teksti
Monisäikeinen tuki

OcrPHP

OcrPHP tukee alla lueteltuja suosittuja pakkaustiedostomuotoja.

Lukija

PNG, JPEG, BMP, TIFF, TGA, DICOM

Kirjoittaja

PNG, JPEG, BMP, TIFF

OcrPHP

Alustariippumattomuus

OcrPHP vaatii vain PHP-ympäristön.

PHP 5.1 tai uudempi.

OcrPHP

Aloittaminen OcrPHP:n kanssa

Suositeltu tapa asentaa OcrPHP on Composerin käyttö. Käytä seuraavaa komentoa sujuvaa asennusta varten.

Asenna OcrPHP Composerin kautta

composer require fizzday/ocrphp

Asenna OcrPHP Githubin kautta

git clone https://github.com/fizzday/OcrPHP.git

Voit ladata käännetyn jaetun kirjaston Github-repositoriosta.

Tunnista ja poimi tekstiä kuvasta PHP:n avulla

Avoimen lähdekoodin OcrPHP‑kirjasto tekee kuvien lataamisesta ja niiden tekstin poimimisesta helppoa vain muutamalla PHP‑rivillä. Tässä on hyvin yksinkertainen esimerkki, jossa käytetään Imagick‑kirjastoa kuvatiedoston lataamiseen ja OcrPHP‑luokan instanssin luomiseen. Kehittäjät voivat sen jälkeen asettaa kielen ja OCR‑moottorin asetukset ennen OCR‑suoritusta kuvalle recognize()-metodilla. Lopuksi poimittu teksti tulostetaan getText()-metodilla.

Kuinka poimia tekstiä kuvasta PHP‑kirjaston avulla?

require_once 'OcrPHP/autoload.php';

// Lataa kuvatiedosto
$image = new Imagick('path/to/image.jpg');

// Luo OcrPHP‑luokan instanssi
$ocr = new OcrPHP();

// Aseta kieli ja OCR‑moottorin asetukset
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);

// Suorita OCR kuvalle
$result = $ocr->recognize($image);

// Tulosta poimittu teksti
echo $result->getText();

Tunnista tekstiä tietyllä kielellä PHP:n avulla

OcrPHP‑kirjasto tarjoaa tuen useille kielille OCR‑toimintojen suorittamiseen PHP‑sovelluksissa. Olipa teksti englanniksi, kiinaksi tai jokin muu tuettu kieli, OcrPHP hoitaa sen saumattomasti. Poimi teksti tietyllä kielellä antamalla kielikoodi parametrina. Varmista, että vastaava Tesseract‑kielimalli on asennettu. Seuraava esimerkki näyttää, miten kehittäjät voivat poimia tekstiä kiinankielisestä kuvasta PHP‑sovelluksissa.

Kuinka poimia tekstiä kiinankielisestä kuvasta PHP:n avulla?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$imagePath = __DIR__ . '/example-image-chinese.png';

$ocr = new Ocr();

// Poimi teksti kiinaksi
$text = $ocr->scan($imagePath, 'chi_sim'); // Käytä 'eng' englanniksi

echo "Poimittu teksti (kiina): \n" . $text;

Eräajot ja OCR‑automaatiot PHP:n avulla

Ohjelmistokehittäjille, jotka rakentavat asiakirjojen käsittelysovelluksia, eräajot ovat arvokas ominaisuus. Avoimen lähdekoodin OcrPHP tekee kehittäjille helppoa käydä läpi hakemisto, jossa on kuvatiedostoja, ja poimia teksti jokaisesta automaattisesti. Tämä on täydellistä automaattiseen laskujen, kuittien tai kirjojen skannaamiseen. Tässä on erittäin hyödyllinen esimerkki, joka skannaa kaikki .png‑tiedostot määritellyssä hakemistossa, poimii tekstin jokaisesta ja tulostaa sen. Voit laajentaa sen tallentamaan tuloksen tiedostoon tai tietokantaan, jolloin siitä tulee tehokas työkalu asiakirjojen käsittelyyn.

Kuinka poimia tekstiä useista kuvista PHP‑kirjaston avulla?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$directory = __DIR__ . '/images/';
$ocr = new Ocr();

foreach (glob($directory . '*.png') as $imagePath) {
    $text = $ocr->scan($imagePath);
    echo "Teksti tiedostosta {$imagePath}: \n" . $text . "\n\n";
}

Mukautettu konfigurointi ja integraatiotuki

Avoimen lähdekoodin OcrPHP on monipuolinen ja kehittäjäystävällinen kirjasto, joka yksinkertaistaa OCR‑ominaisuuksien integrointia PHP‑projekteihin. Kirjasto mahdollistaa Tesseract‑asetusten, kuten kielen, sivun segmentointitilan ja kuvan esikäsittelyparametrien, mukauttamisen, tarjoten joustavuutta OCR‑tulosten hienosäätöön.