1. produkty
  2.   OCR
  3.   PHP
  4.   Tesseract OCR for PHP
 
  

Open Source PHP knihovna pro operace OCR na obrázcích

Zdarma PHP API pro optické rozpoznávání znaků pro provádění operací OCR na obrázcích, naskenovaných dokumentech a PDF pomocí knihovny Tesseract PHP.

Mezi mnoha dostupnými nástroji OCR vyniká Tesseract OCR jako jedno z nejvýkonnějších a nejuniverzálnějších API, které umožňuje vývojářům softwaru vytvářet aplikace pro rozpoznávání a extrahování textu z různých populárních vizuálních zdrojů. Tesseract OCR pro PHP je velmi užitečný obal pro práci s Tesseract OCR v aplikacích PHP. Open source knihovna Tesseract OCR for PHP může zvýšit přesnost OCR předzpracováním obrazu. Techniky, jako je změna velikosti, binarizace, odstranění šumu a zkosení, lze použít ke zlepšení viditelnosti textu a odstranění jakýchkoli artefaktů, které mohou bránit rozpoznání.

Knihovna Tesseract OCR for PHP nabízí několik pokročilých funkcí a možností přizpůsobení pro vylepšení výsledků OCR v aplikacích PHP, jako je zpracování vícejazyčných dokumentů, určení požadovaného jazyka (jazyků) během inicializace OCR pro zlepšení přesnosti pro konkrétní jazyky, podpora režimů segmentace stránek, zlepšení přesnosti rozpoznávání pro specializované aplikace, podpora školení o vlastních fontech nebo symbolech nebo specifických textových vzorech, zlepšení dostupnosti, digitalizace dokumentů, analýza textu, extrakce dat a mnoho dalších.

Použijte obálku Tesseract PHP k předání předzpracovaného obrazu do modulu Tesseract OCR. Obálka poskytuje funkce pro provedení OCR a načtení rozpoznaného textu jako výsledek. Extrahovaný text může vyžadovat další kroky následného zpracování, jako je kontrola pravopisu, formátování nebo jazykové úpravy. Pro tyto účely lze použít PHP knihovny jako Symfony/string nebo Text_LanguageDetect. Integrací Tesseract OCR do vašich projektů PHP mohou vývojáři softwaru zefektivnit zpracování dokumentů, automatizovat extrakci dat a odemknout svým aplikacím novou úroveň efektivity a dostupnosti.

Previous Next

Začínáme s Tesseract OCR pro PHP

Doporučený způsob instalace Tesseract OCR pro PHP je použití Composer. Pro bezproblémovou instalaci použijte prosím následující příkaz.

Nainstalujte Tesseract OCR pro PHP přes Composer

$ composer require thiagoalessio/tesseract_ocr 

Nainstalujte Tesseract OCR pro PHP přes Github

git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git 

Zkompilovanou sdílenou knihovnu si můžete stáhnout z úložiště Github.

Extrahujte text z obrázku v aplikacích PHP

Open source knihovna Tesseract OCR for PHP poskytuje některé užitečné funkce pro extrahování textu z obrázků pomocí příkazů PHP. Knihovna nabízí různé režimy segmentace stránek pro práci s různými rozvrženími a uspořádáním textu. Spusťte proces extrakce načtením obrázku nebo dokumentu, který obsahuje text, který chcete extrahovat. Použijte obal Tesseract PHP k předání předzpracovaného obrazu do OCR enginu Tesseract. Obálka poskytuje funkce pro provedení OCR a načtení rozpoznaného textu jako výsledek. Následující příklad ukazuje základní proces načítání obrázku a extrahování textu z něj pomocí příkazů PHP.

Jak načíst obrázek a extrahovat text pomocí kódu PHP?

use TesseractOCR\TesseractOCR;

$imagePath = '/path/to/your/image.jpg';

$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition

$text = $tesseract->run();
echo $text;

Zpracování výstupu OCR v aplikacích PHP

Open source knihovna Tesseract OCR for PHP obsahuje velmi užitečné funkce pro ukládání a práci s výstupním textem OCR v aplikacích PHP. Umožňuje uložit text v některých populárních formátech, jako je PDF, TXT, HTML, Word a mnoho dalších. Umožňuje zpracovat rozpoznaný text extrahovaný z obrázku. V závislosti na požadavcích vaší aplikace možná budete muset extrahovaný text dále zpracovat nebo analyzovat. Mezi běžné úkoly patří ověřování dat, čištění textu, kontrola pravopisu, formátování, integrace s jinými systémy pro pokročilé zpracování nebo jazykové úpravy. Softwaroví vývojáři mohou snadno analyzovat velké objemy textových dat extrahovaných z dokumentů, zdrojů sociálních médií nebo zpětné vazby od zákazníků a získat tak statistiky, analýzu sentimentu nebo modelování témat.

Načtěte data obrázku, velikost a uložte je ve formátu PDF pomocí PHP API

//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();

$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();


// Save the Output to PDF file

echo (new TesseractOCR('img.png'))
    ->configFile('pdf')
    ->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
    ->run();

 Čeština