Biblioteka PHP typu open source do operacji OCR na obrazachs
Bezpłatny interfejs API optycznego rozpoznawania znaków PHP do wykonywania operacji OCR na obrazach, zeskanowanych dokumentach i plikach PDF przy użyciu biblioteki Tesseract PHP.
Wśród licznych dostępnych narzędzi OCR, Tesseract OCR wyróżnia się jako jedno z najpotężniejszych i najbardziej wszechstronnych interfejsów API umożliwiających twórcom oprogramowania tworzenie aplikacji do rozpoznawania i wydobywania tekstu z różnych popularnych źródeł wizualnych. Tesseract OCR dla PHP to bardzo przydatny wrapper do pracy z Tesseract OCR w aplikacjach PHP. Biblioteka Tesseract OCR o otwartym kodzie źródłowym dla PHP może zwiększyć dokładność OCR poprzez wstępne przetwarzanie obrazu. Aby poprawić widoczność tekstu i usunąć wszelkie artefakty, które mogą utrudniać rozpoznawanie, można zastosować techniki takie jak zmiana rozmiaru, binaryzacja, usuwanie szumów i prostowanie.
Biblioteka Tesseract OCR dla PHP oferuje kilka zaawansowanych funkcji i opcji dostosowywania w celu poprawy wyników OCR w aplikacjach PHP, takich jak obsługa dokumentów wielojęzycznych, określanie żądanego języka(ów) podczas inicjalizacji OCR w celu poprawy dokładności dla określonych języków, obsługa trybów segmentacji strony, poprawianie dokładności rozpoznawania w przypadku specjalistycznych aplikacji, wsparcie szkoleniowe w zakresie niestandardowych czcionek lub symboli lub określonych wzorców tekstu, zwiększanie dostępności, digitalizacja dokumentów, analiza tekstu, ekstrakcja danych i wiele innych.
Wykorzystaj opakowanie Tesseract PHP, aby przekazać wstępnie przetworzony obraz do silnika Tesseract OCR. Opakowanie udostępnia funkcje umożliwiające wykonanie OCR i w rezultacie pobranie rozpoznanego tekstu. Wyodrębniony tekst może wymagać dodatkowych etapów przetwarzania końcowego, takich jak sprawdzanie pisowni, formatowanie lub modyfikacje specyficzne dla języka. Do tych celów można wykorzystać biblioteki PHP, takie jak Symfony/string lub Text_LanguageDetect. Integrując Tesseract OCR z Twoimi projektami PHP, programiści mogą usprawnić przetwarzanie dokumentów, zautomatyzować ekstrakcję danych i odblokować nowy poziom wydajności i dostępności w swoich aplikacjach.
Pierwsze kroki z Tesseract OCR dla PHP
Zalecanym sposobem instalacji Tesseract OCR dla PHP jest użycie Composer. Aby instalacja przebiegła bezproblemowo, użyj poniższego polecenia.
Zainstaluj Tesseract OCR dla PHP poprzez Composer
$ composer require thiagoalessio/tesseract_ocr
Zainstaluj Tesseract OCR dla PHP poprzez Github
git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git
You can download the compiled shared library from Github repository.
Wyodrębnij tekst z obrazu w aplikacjach PHP
Biblioteka Tesseract OCR dla PHP o otwartym kodzie źródłowym udostępnia kilka przydatnych funkcji do wyodrębniania tekstu z obrazów za pomocą poleceń PHP. Biblioteka oferuje różne tryby segmentacji strony, umożliwiające obsługę różnych układów i układów tekstu. Rozpocznij proces wyodrębniania, ładując obraz lub dokument zawierający tekst, który chcesz wyodrębnić. Wykorzystaj opakowanie Tesseract PHP, aby przekazać wstępnie przetworzony obraz do silnika Tesseract OCR. Opakowanie udostępnia funkcje umożliwiające wykonanie OCR i w rezultacie pobranie rozpoznanego tekstu. Poniższy przykład pokazuje podstawowy proces ładowania obrazu i wyodrębniania z niego tekstu za pomocą poleceń PHP.
Jak załadować obraz i wyodrębnić tekst przy użyciu kodu PHP?
use TesseractOCR\TesseractOCR;
$imagePath = '/path/to/your/image.jpg';
$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition
$text = $tesseract->run();
echo $text;
Obsługa danych wyjściowych OCR w aplikacjach PHP
Biblioteka Tesseract OCR dla PHP o otwartym kodzie źródłowym zawiera bardzo przydatne funkcje do zapisywania tekstu wyjściowego OCR i pracy z nim w aplikacjach PHP. Umożliwia zapisanie tekstu w niektórych popularnych formatach, takich jak PDF, TXT, HTML, Word i wiele innych. Pozwala na obsługę rozpoznanego tekstu wyodrębnionego z obrazu. W zależności od wymagań aplikacji może być konieczne dalsze przetwarzanie lub analiza wyodrębnionego tekstu. Typowe zadania obejmują sprawdzanie poprawności danych, czyszczenie tekstu, sprawdzanie pisowni, formatowanie, integrację z innymi systemami w celu zaawansowanego przetwarzania lub modyfikacje specyficzne dla języka. Twórcy oprogramowania mogą z łatwością analizować duże ilości danych tekstowych wyodrębnionych z dokumentów, kanałów mediów społecznościowych lub opinii klientów w celu uzyskania spostrzeżeń, analizy nastrojów lub modelowania tematów.
Pobierz dane obrazu, rozmiar i zapisz je w formacie PDF za pośrednictwem PHP API
//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();
$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();
// Save the Output to PDF file
echo (new TesseractOCR('img.png'))
->configFile('pdf')
->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
->run();