Leabharlann PHP Foinse Oscailte le haghaidh oibríochtaí OCR ar Íomhánna
API Aithint Carachtair Optúil PHP saor in aisce chun oibríochtaí OCR a dhéanamh ar Íomhánna, Doiciméid Scanta agus PDF ag baint úsáide as leabharlann Tesseract PHP.
I measc na n-uirlisí OCR iomadúla atá ar fáil, seasann Tesseract OCR amach mar cheann de na API is cumhachtaí agus is ilúsáide a chuireann ar chumas forbróirí bogearraí feidhmchláir a chruthú chun téacs a aithint agus a bhaint as foinsí amhairc éagsúla. Is fillteán an-úsáideach é Tesseract OCR do PHP chun oibriú le Tesseract OCR taobh istigh d’fheidhmchláir PHP. Is féidir leis an bhfoinse oscailte Tesseract OCR do leabharlann PHP cruinneas OCR a fheabhsú tríd an íomhá a réamhphróiseáil. Is féidir teicníochtaí mar athrú méide, dénártha, baint torainn, agus deasca a chur i bhfeidhm chun infheictheacht an téacs a fheabhsú agus chun aon déantáin a d’fhéadfadh bac a chur ar aithint a bhaint.
Cuireann Tesseract OCR do leabharlann PHP roinnt ardghnéithe agus roghanna saincheaptha ar fáil chun torthaí OCR a fheabhsú taobh istigh d’fheidhmchláir PHP mar láimhseáil doiciméad ilteangach, ag sonrú na teanga(cha) atá ag teastáil le linn thúsaithe OCR chun cruinneas teangacha ar leith a fheabhsú, tacaítear le modhanna deighilte leathanach, feabhas a chur ar chruinneas aitheantais d’fheidhmchláir speisialaithe, tacaíocht oiliúna ar chlónna nó ar shiombailí saincheaptha, nó ar phatrúin shainiúla téacs, feabhsaítear inrochtaineacht, digitiú doiciméad, anailísíocht téacs, eastóscadh sonraí agus go leor eile.
Úsáid fillteán PHP Tesseract chun an íomhá réamhphróiseáilte a chur ar aghaidh chuig inneall Tesseract OCR. Soláthraíonn an fillteán feidhmeanna chun OCR a fhorghníomhú agus chun an téacs aitheanta a aisghabháil mar thoradh air sin. D’fhéadfadh go mbeadh céimeanna breise iarphróiseála ag teastáil don téacs asbhainte, amhail litriú, formáidiú, nó modhnuithe a bhaineann go sonrach le teanga. Is féidir leabharlanna PHP mar Symfony/string nó Text_LanguageDetect a úsáid chun na gcríoch seo. Trí Tesseract OCR a chomhtháthú i do thionscadail PHP, is féidir le forbróirí bogearraí próiseáil doiciméad a shruthlíniú, asbhaint sonraí a uathoibriú, agus leibhéal nua éifeachtúlachta agus inrochtaineachta a dhíghlasáil ina bhfeidhmchláir.
Tús le Tesseract OCR do PHP
Is é Composer an bealach molta chun Tesseract OCR a shuiteáil do PHP. Bain úsáid as an ordú seo a leanas le haghaidh suiteáil rianúil.
Suiteáil Tesseract OCR do PHP trí Chumadóir
$ composer require thiagoalessio/tesseract_ocr
Suiteáil Tesseract OCR do PHP trí Github
git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git
Is féidir leat an leabharlann chomhroinnte tiomsaithe a íoslódáil ó Github stór.
Sliocht Téacs ón Íomhá laistigh d'Aipeanna PHP
Chuir an fhoinse oscailte Tesseract OCR do leabharlann PHP roinnt gnéithe úsáideacha ar fáil chun téacs a bhaint as íomhánna trí úsáid a bhaint as orduithe PHP. Cuireann an leabharlann modhanna éagsúla deighilte leathanach ar fáil chun leagan amach agus socruithe téacs éagsúla a láimhseáil. Cuir tús leis an bpróiseas eastósctha tríd an íomhá nó an doiciméad ina bhfuil an téacs is mian leat a bhaint as a luchtú. Bain úsáid as an bhfillteán PHP Tesseract chun an íomhá réamhphróiseáilte a chur ar aghaidh chuig inneall Tesseract OCR. Soláthraíonn an fillteán feidhmeanna chun OCR a fhorghníomhú agus chun an téacs aitheanta a aisghabháil mar thoradh air sin. Taispeánann an sampla seo a leanas próiseas bunúsach chun íomhá a luchtú agus téacs a bhaint aisti ag baint úsáide as orduithe PHP.
Conas Íomhá & Téacs a Bhaint as a Lódáil le Cód PHP?
use TesseractOCR\TesseractOCR;
$imagePath = '/path/to/your/image.jpg';
$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition
$text = $tesseract->run();
echo $text;
Aschur OCR a láimhseáil laistigh d'Aipeanna PHP
Tá gnéithe an-úsáideacha san áireamh sa fhoinse oscailte Tesseract OCR do leabharlann PHP chun téacs aschuir OCR a shábháil agus oibriú leis laistigh d’fheidhmchláir PHP. Ligeann sé an téacs amach a shábháil i roinnt formáidí coitianta mar PDF, TXT, HTML, Word agus go leor eile. Ligeann sé an téacs aitheanta a bhaintear as an íomhá a láimhseáil. Ag brath ar riachtanais d’iarratais, b’fhéidir go mbeidh ort an téacs asbhainte a phróiseáil tuilleadh nó a anailísiú. I measc na dtascanna coitianta tá bailíochtú sonraí, glanadh téacs, litriú a sheiceáil, formáidiú, comhtháthú le córais eile le haghaidh ardphróiseála nó modhnuithe a bhaineann go sonrach le teanga. Is féidir le forbróirí bogearraí anailís a dhéanamh go héasca ar líon mór sonraí téacs a bhaintear as doiciméid, fothaí meán sóisialta, nó aiseolas ó chustaiméirí chun léargais, anailís meoin nó samhaltú topaicí a fháil.
Aisghabh Sonraí Íomhá, Méid & Sábháil é i bhFormáid PDF trí PHP API
//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();
$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();
// Save the Output to PDF file
echo (new TesseractOCR('img.png'))
->configFile('pdf')
->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
->run();