Biblioteka PHP typu open source do operacji OCR na obrazachs

Bezpłatny interfejs API optycznego rozpoznawania znaków PHP do wykonywania operacji OCR na obrazach, zeskanowanych dokumentach i plikach PDF przy użyciu biblioteki Tesseract PHP.

Wśród licznych dostępnych narzędzi OCR, Tesseract OCR wyróżnia się jako jedno z najpotężniejszych i najbardziej wszechstronnych interfejsów API umożliwiających twórcom oprogramowania tworzenie aplikacji do rozpoznawania i wydobywania tekstu z różnych popularnych źródeł wizualnych. Tesseract OCR dla PHP to bardzo przydatny wrapper do pracy z Tesseract OCR w aplikacjach PHP. Biblioteka Tesseract OCR o otwartym kodzie źródłowym dla PHP może zwiększyć dokładność OCR poprzez wstępne przetwarzanie obrazu. Aby poprawić widoczność tekstu i usunąć wszelkie artefakty, które mogą utrudniać rozpoznawanie, można zastosować techniki takie jak zmiana rozmiaru, binaryzacja, usuwanie szumów i prostowanie.

Biblioteka Tesseract OCR dla PHP oferuje kilka zaawansowanych funkcji i opcji dostosowywania w celu poprawy wyników OCR w aplikacjach PHP, takich jak obsługa dokumentów wielojęzycznych, określanie żądanego języka(ów) podczas inicjalizacji OCR w celu poprawy dokładności dla określonych języków, obsługa trybów segmentacji strony, poprawianie dokładności rozpoznawania w przypadku specjalistycznych aplikacji, wsparcie szkoleniowe w zakresie niestandardowych czcionek lub symboli lub określonych wzorców tekstu, zwiększanie dostępności, digitalizacja dokumentów, analiza tekstu, ekstrakcja danych i wiele innych.

Wykorzystaj opakowanie Tesseract PHP, aby przekazać wstępnie przetworzony obraz do silnika Tesseract OCR. Opakowanie udostępnia funkcje umożliwiające wykonanie OCR i w rezultacie pobranie rozpoznanego tekstu. Wyodrębniony tekst może wymagać dodatkowych etapów przetwarzania końcowego, takich jak sprawdzanie pisowni, formatowanie lub modyfikacje specyficzne dla języka. Do tych celów można wykorzystać biblioteki PHP, takie jak Symfony/string lub Text_LanguageDetect. Integrując Tesseract OCR z Twoimi projektami PHP, programiści mogą usprawnić przetwarzanie dokumentów, zautomatyzować ekstrakcję danych i odblokować nowy poziom wydajności i dostępności w swoich aplikacjach.

W skrócie

Przegląd funkcji Tesseract OCR dla funkcji PHP.

Przegląd funkcji

Wykonaj OCR
Dodaj możliwości OCR
Rozpoznaj tekst obrazu
Przekształcaj obrazy tekstu
Rozpoznany tekst czcionki
Wyszukaj plik PDF
Inne języki
Twórz aplikacje OCR
Zapisz w przeglądarce
Wyodrębnij tekst
Obsługa wielowątkowości

Tesseract OCR for PHP

Tesseract OCR dla PHP obsługuje popularne formaty plików kompresji wymienione poniżej.

Czytelnik

PNG, JPEG, BMP, TIFF, TGA, DICOM

Pisarz

PNG, JPEG, BMP, TIFF

Tesseract OCR for PHP

Niezależność od platformy

Tesseract OCR dla PHP wymaga jedynie środowiska wykonawczego PHP.

PHP 5.1 i nowsze.

Tesseract OCR for PHP

Pierwsze kroki z Tesseract OCR dla PHP

Zalecanym sposobem instalacji Tesseract OCR dla PHP jest użycie Composer. Aby instalacja przebiegła bezproblemowo, użyj poniższego polecenia.

Zainstaluj Tesseract OCR dla PHP poprzez Composer

$ composer require thiagoalessio/tesseract_ocr

Zainstaluj Tesseract OCR dla PHP poprzez Github

git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git

You can download the compiled shared library from Github repository.

Wyodrębnij tekst z obrazu w aplikacjach PHP

Biblioteka Tesseract OCR dla PHP o otwartym kodzie źródłowym udostępnia kilka przydatnych funkcji do wyodrębniania tekstu z obrazów za pomocą poleceń PHP. Biblioteka oferuje różne tryby segmentacji strony, umożliwiające obsługę różnych układów i układów tekstu. Rozpocznij proces wyodrębniania, ładując obraz lub dokument zawierający tekst, który chcesz wyodrębnić. Wykorzystaj opakowanie Tesseract PHP, aby przekazać wstępnie przetworzony obraz do silnika Tesseract OCR. Opakowanie udostępnia funkcje umożliwiające wykonanie OCR i w rezultacie pobranie rozpoznanego tekstu. Poniższy przykład pokazuje podstawowy proces ładowania obrazu i wyodrębniania z niego tekstu za pomocą poleceń PHP.

Jak załadować obraz i wyodrębnić tekst przy użyciu kodu PHP?

use TesseractOCR\TesseractOCR;

$imagePath = '/path/to/your/image.jpg';

$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition

$text = $tesseract->run();
echo $text;

Obsługa danych wyjściowych OCR w aplikacjach PHP

Biblioteka Tesseract OCR dla PHP o otwartym kodzie źródłowym zawiera bardzo przydatne funkcje do zapisywania tekstu wyjściowego OCR i pracy z nim w aplikacjach PHP. Umożliwia zapisanie tekstu w niektórych popularnych formatach, takich jak PDF, TXT, HTML, Word i wiele innych. Pozwala na obsługę rozpoznanego tekstu wyodrębnionego z obrazu. W zależności od wymagań aplikacji może być konieczne dalsze przetwarzanie lub analiza wyodrębnionego tekstu. Typowe zadania obejmują sprawdzanie poprawności danych, czyszczenie tekstu, sprawdzanie pisowni, formatowanie, integrację z innymi systemami w celu zaawansowanego przetwarzania lub modyfikacje specyficzne dla języka. Twórcy oprogramowania mogą z łatwością analizować duże ilości danych tekstowych wyodrębnionych z dokumentów, kanałów mediów społecznościowych lub opinii klientów w celu uzyskania spostrzeżeń, analizy nastrojów lub modelowania tematów.

Pobierz dane obrazu, rozmiar i zapisz je w formacie PDF za pośrednictwem PHP API

//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();

$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();


// Save the Output to PDF file

echo (new TesseractOCR('img.png'))
    ->configFile('pdf')
    ->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
    ->run();