Biblioteka PHP do Ekstrahowania Tekstu z Obrazów w Wielu Językach

Open Source API Rozpoznawania Znaków Optycznych (OCR) w PHP umożliwia ładowanie i skanowanie obrazów lub dokumentów, rozpoznawanie i ekstrakcję tekstu z obrazów w wielu językach w aplikacjach PHP.

Technologia Rozpoznawania Znaków Optycznych (OCR) stała się niezbędnym narzędziem do wyodrębniania tekstu z obrazów i dokumentów. Wraz ze wzrostem transformacji cyfrowej potrzeba efektywnych i dokładnych rozwiązań OCR nigdy nie była tak pilna. OcrPHP to bardzo potężna otwartoźródłowa biblioteka OCR, która umożliwia programistom tworzenie solidnych i skalowalnych aplikacji OCR. Jest to biblioteka OCR oparta na PHP, wykorzystująca silnik Tesseract OCR, szeroko stosowaną i wysoko cenioną technologię OCR opracowaną przez Google. Biblioteka oferuje liczne funkcje, takie jak skanowanie dokumentów, wyodrębnianie tekstu z obrazów, ekstrakcja tekstu w określonym języku, wyodrębnianie tekstu z plików PDF i wiele innych.

Biblioteka OcrPHP zawiera zaawansowane techniki przetwarzania wstępnego obrazów, takie jak prostowanie, usuwanie szumów i binaryzacja, aby poprawić dokładność OCR. Obsługuje wykonywanie OCR w wielu językach, w tym angielskim, hiszpańskim, francuskim, niemieckim, włoskim, portugalskim, chińskim, japońskim i wielu innych. Programiści mogą dostosować proces OCR, regulując parametry takie jak język, tryb segmentacji strony oraz ustawienia silnika OCR. Zawiera solidne mechanizmy obsługi błędów, zapewniające płynne i efektywne wykonywanie operacji OCR. Dzięki funkcjom takim jak wsparcie wielu języków, zaawansowane skanowanie obrazów, niestandardowe konfiguracje i prosta integracja, umożliwia programistom tworzenie wszechstronnych narzędzi rozpoznawania tekstu przy niewielkim nakładzie pracy i niskich kosztach.

W skrócie

Przegląd funkcji OcrPHP.

Przegląd funkcji

Wykonywanie OCR
Dodawanie możliwości OCR
Rozpoznawanie tekstu w wielu językach
Konwertowanie obrazów z tekstem
Rozpoznany tekst czcionki
Przeszukiwanie PDF
Inne języki
Tworzenie aplikacji OCR
Zapisywanie w przeglądarce
Ekstrahowanie tekstu
Wsparcie wielowątkowości

OcrPHP

OcrPHP obsługuje popularne formaty plików kompresji wymienione poniżej.

Czytnik

PNG, JPEG, BMP, TIFF, TGA, DICOM

Zapis

PNG, JPEG, BMP, TIFF

OcrPHP

Niezależność od platformy

OcrPHP wymaga jedynie środowiska uruchomieniowego PHP.

PHP 5.1 i nowsze.

OcrPHP

Rozpoczęcie pracy z OcrPHP

Zalecany sposób instalacji OcrPHP to użycie Composer. Proszę użyć poniższego polecenia, aby przeprowadzić płynną instalację.

Instalacja OcrPHP za pomocą Composer

composer require fizzday/ocrphp

Instalacja OcrPHP z Github

git clone https://github.com/fizzday/OcrPHP.git

Możesz pobrać skompilowaną bibliotekę współdzieloną z repozytorium Github.

Rozpoznawanie i ekstrakcja tekstu z obrazu za pomocą PHP

Otwartoźródłowa biblioteka OcrPHP ułatwia oprogramowaniu ładowanie różnych typów obrazów i wyodrębnianie tekstu z tych obrazów przy użyciu kilku linii kodu PHP. Oto bardzo prosty przykład, który wykorzystuje bibliotekę Imagick do załadowania pliku obrazu i stworzenia instancji klasy OcrPHP. Programiści mogą następnie ustawić język i ustawienia silnika OCR przed wykonaniem OCR na obrazie za pomocą metody recognize(). Na koniec wypisuje wyodrębniony tekst przy użyciu metody getText().

Jak wyodrębnić tekst z obrazu przy użyciu biblioteki PHP?

require_once 'OcrPHP/autoload.php';

// Load the image file
$image = new Imagick('path/to/image.jpg');

// Create an instance of the OcrPHP class
$ocr = new OcrPHP();

// Set the language and OCR engine settings
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);

// Perform OCR on the image
$result = $ocr->recognize($image);

// Print the extracted text
echo $result->getText();

Rozpoznawanie tekstu w określonym języku za pomocą PHP

Biblioteka OcrPHP zapewnia wsparcie dla wielu języków, umożliwiając wykonywanie operacji OCR w aplikacjach PHP. Niezależnie od tego, czy tekst jest w języku angielskim, chińskim czy innym obsługiwanym języku, OcrPHP radzi sobie z tym bez problemu. Aby wyodrębnić tekst w określonym języku, przekaż kod języka jako parametr. Upewnij się, że odpowiedni model językowy Tesseract jest zainstalowany. Poniższy przykład pokazuje, jak programiści mogą wyodrębniać tekst z obrazów w języku chińskim w aplikacjach PHP.

Jak wyodrębnić tekst z obrazu w języku chińskim za pomocą PHP?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$imagePath = __DIR__ . '/example-image-chinese.png';

$ocr = new Ocr();

// Extract text in Chinese
$text = $ocr->scan($imagePath, 'chi_sim'); // Use 'eng' for English

echo "Extracted Text (Chinese): \n" . $text;

Przetwarzanie wsadowe i automatyzacja OCR za pomocą PHP

Dla programistów tworzących aplikacje do przetwarzania dokumentów przetwarzanie wsadowe może być cenną funkcją. Otwartoźródłowa OcrPHP ułatwia programistom iterowanie po katalogu plików obrazów i automatyczne wyodrębnianie tekstu z każdego z nich. To doskonałe rozwiązanie do automatyzacji zadań, takich jak skanowanie faktur, paragonów czy książek. Oto bardzo przydatny przykład, który skanuje wszystkie pliki .png w określonym katalogu, wyodrębnia tekst z każdego i wypisuje go. Możesz rozszerzyć to, aby zapisać wynik do pliku lub bazy danych, co czyni go potężnym narzędziem do przetwarzania dokumentów.

Jak wyodrębnić tekst z wielu obrazów przy użyciu biblioteki PHP?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$directory = __DIR__ . '/images/';
$ocr = new Ocr();

foreach (glob($directory . '*.png') as $imagePath) {
    $text = $ocr->scan($imagePath);
    echo "Text from {$imagePath}: \n" . $text . "\n\n";
}

Niestandardowa konfiguracja i wsparcie integracji

Otwartoźródłowa OcrPHP to wszechstronna i przyjazna dla programistów biblioteka, która upraszcza integrację możliwości OCR w projektach PHP. Biblioteka pozwala określić własne konfiguracje Tesseract, takie jak język, tryb segmentacji strony oraz parametry przetwarzania obrazu, oferując elastyczność w dostosowywaniu wyników OCR.