Biblioteka PHP do Ekstrahowania Tekstu z Obrazów w Wielu Językach
Open Source API Rozpoznawania Znaków Optycznych (OCR) w PHP umożliwia ładowanie i skanowanie obrazów lub dokumentów, rozpoznawanie i ekstrakcję tekstu z obrazów w wielu językach w aplikacjach PHP.
Technologia Rozpoznawania Znaków Optycznych (OCR) stała się niezbędnym narzędziem do wyodrębniania tekstu z obrazów i dokumentów. Wraz ze wzrostem transformacji cyfrowej potrzeba efektywnych i dokładnych rozwiązań OCR nigdy nie była tak pilna. OcrPHP to bardzo potężna otwartoźródłowa biblioteka OCR, która umożliwia programistom tworzenie solidnych i skalowalnych aplikacji OCR. Jest to biblioteka OCR oparta na PHP, wykorzystująca silnik Tesseract OCR, szeroko stosowaną i wysoko cenioną technologię OCR opracowaną przez Google. Biblioteka oferuje liczne funkcje, takie jak skanowanie dokumentów, wyodrębnianie tekstu z obrazów, ekstrakcja tekstu w określonym języku, wyodrębnianie tekstu z plików PDF i wiele innych.
Biblioteka OcrPHP zawiera zaawansowane techniki przetwarzania wstępnego obrazów, takie jak prostowanie, usuwanie szumów i binaryzacja, aby poprawić dokładność OCR. Obsługuje wykonywanie OCR w wielu językach, w tym angielskim, hiszpańskim, francuskim, niemieckim, włoskim, portugalskim, chińskim, japońskim i wielu innych. Programiści mogą dostosować proces OCR, regulując parametry takie jak język, tryb segmentacji strony oraz ustawienia silnika OCR. Zawiera solidne mechanizmy obsługi błędów, zapewniające płynne i efektywne wykonywanie operacji OCR. Dzięki funkcjom takim jak wsparcie wielu języków, zaawansowane skanowanie obrazów, niestandardowe konfiguracje i prosta integracja, umożliwia programistom tworzenie wszechstronnych narzędzi rozpoznawania tekstu przy niewielkim nakładzie pracy i niskich kosztach.
Rozpoczęcie pracy z OcrPHP
Zalecany sposób instalacji OcrPHP to użycie Composer. Proszę użyć poniższego polecenia, aby przeprowadzić płynną instalację.
Instalacja OcrPHP za pomocą Composer
composer require fizzday/ocrphpInstalacja OcrPHP z Github
git clone https://github.com/fizzday/OcrPHP.git Możesz pobrać skompilowaną bibliotekę współdzieloną z repozytorium Github.
Rozpoznawanie i ekstrakcja tekstu z obrazu za pomocą PHP
Otwartoźródłowa biblioteka OcrPHP ułatwia oprogramowaniu ładowanie różnych typów obrazów i wyodrębnianie tekstu z tych obrazów przy użyciu kilku linii kodu PHP. Oto bardzo prosty przykład, który wykorzystuje bibliotekę Imagick do załadowania pliku obrazu i stworzenia instancji klasy OcrPHP. Programiści mogą następnie ustawić język i ustawienia silnika OCR przed wykonaniem OCR na obrazie za pomocą metody recognize(). Na koniec wypisuje wyodrębniony tekst przy użyciu metody getText().
Jak wyodrębnić tekst z obrazu przy użyciu biblioteki PHP?
require_once 'OcrPHP/autoload.php';
// Load the image file
$image = new Imagick('path/to/image.jpg');
// Create an instance of the OcrPHP class
$ocr = new OcrPHP();
// Set the language and OCR engine settings
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);
// Perform OCR on the image
$result = $ocr->recognize($image);
// Print the extracted text
echo $result->getText();
Rozpoznawanie tekstu w określonym języku za pomocą PHP
Biblioteka OcrPHP zapewnia wsparcie dla wielu języków, umożliwiając wykonywanie operacji OCR w aplikacjach PHP. Niezależnie od tego, czy tekst jest w języku angielskim, chińskim czy innym obsługiwanym języku, OcrPHP radzi sobie z tym bez problemu. Aby wyodrębnić tekst w określonym języku, przekaż kod języka jako parametr. Upewnij się, że odpowiedni model językowy Tesseract jest zainstalowany. Poniższy przykład pokazuje, jak programiści mogą wyodrębniać tekst z obrazów w języku chińskim w aplikacjach PHP.
Jak wyodrębnić tekst z obrazu w języku chińskim za pomocą PHP?
require 'vendor/autoload.php';
use Fizzday\Ocr\Ocr;
$imagePath = __DIR__ . '/example-image-chinese.png';
$ocr = new Ocr();
// Extract text in Chinese
$text = $ocr->scan($imagePath, 'chi_sim'); // Use 'eng' for English
echo "Extracted Text (Chinese): \n" . $text;
Przetwarzanie wsadowe i automatyzacja OCR za pomocą PHP
Dla programistów tworzących aplikacje do przetwarzania dokumentów przetwarzanie wsadowe może być cenną funkcją. Otwartoźródłowa OcrPHP ułatwia programistom iterowanie po katalogu plików obrazów i automatyczne wyodrębnianie tekstu z każdego z nich. To doskonałe rozwiązanie do automatyzacji zadań, takich jak skanowanie faktur, paragonów czy książek. Oto bardzo przydatny przykład, który skanuje wszystkie pliki .png w określonym katalogu, wyodrębnia tekst z każdego i wypisuje go. Możesz rozszerzyć to, aby zapisać wynik do pliku lub bazy danych, co czyni go potężnym narzędziem do przetwarzania dokumentów.
Jak wyodrębnić tekst z wielu obrazów przy użyciu biblioteki PHP?
require 'vendor/autoload.php';
use Fizzday\Ocr\Ocr;
$directory = __DIR__ . '/images/';
$ocr = new Ocr();
foreach (glob($directory . '*.png') as $imagePath) {
$text = $ocr->scan($imagePath);
echo "Text from {$imagePath}: \n" . $text . "\n\n";
}
Niestandardowa konfiguracja i wsparcie integracji
Otwartoźródłowa OcrPHP to wszechstronna i przyjazna dla programistów biblioteka, która upraszcza integrację możliwości OCR w projektach PHP. Biblioteka pozwala określić własne konfiguracje Tesseract, takie jak język, tryb segmentacji strony oraz parametry przetwarzania obrazu, oferując elastyczność w dostosowywaniu wyników OCR.