1. Produkty
  2.   OCR
  3.   PHP
  4.   OcrPHP
 
  

Biblioteka PHP do Ekstrahowania Tekstu z Obrazów w Wielu Językach

Open Source API Rozpoznawania Znaków Optycznych (OCR) w PHP umożliwia ładowanie i skanowanie obrazów lub dokumentów, rozpoznawanie i ekstrakcję tekstu z obrazów w wielu językach w aplikacjach PHP.

Technologia Rozpoznawania Znaków Optycznych (OCR) stała się niezbędnym narzędziem do wyodrębniania tekstu z obrazów i dokumentów. Wraz ze wzrostem transformacji cyfrowej potrzeba efektywnych i dokładnych rozwiązań OCR nigdy nie była tak pilna. OcrPHP to bardzo potężna otwartoźródłowa biblioteka OCR, która umożliwia programistom tworzenie solidnych i skalowalnych aplikacji OCR. Jest to biblioteka OCR oparta na PHP, wykorzystująca silnik Tesseract OCR, szeroko stosowaną i wysoko cenioną technologię OCR opracowaną przez Google. Biblioteka oferuje liczne funkcje, takie jak skanowanie dokumentów, wyodrębnianie tekstu z obrazów, ekstrakcja tekstu w określonym języku, wyodrębnianie tekstu z plików PDF i wiele innych.

Biblioteka OcrPHP zawiera zaawansowane techniki przetwarzania wstępnego obrazów, takie jak prostowanie, usuwanie szumów i binaryzacja, aby poprawić dokładność OCR. Obsługuje wykonywanie OCR w wielu językach, w tym angielskim, hiszpańskim, francuskim, niemieckim, włoskim, portugalskim, chińskim, japońskim i wielu innych. Programiści mogą dostosować proces OCR, regulując parametry takie jak język, tryb segmentacji strony oraz ustawienia silnika OCR. Zawiera solidne mechanizmy obsługi błędów, zapewniające płynne i efektywne wykonywanie operacji OCR. Dzięki funkcjom takim jak wsparcie wielu języków, zaawansowane skanowanie obrazów, niestandardowe konfiguracje i prosta integracja, umożliwia programistom tworzenie wszechstronnych narzędzi rozpoznawania tekstu przy niewielkim nakładzie pracy i niskich kosztach.

Previous Next

Rozpoczęcie pracy z OcrPHP

Zalecany sposób instalacji OcrPHP to użycie Composer. Proszę użyć poniższego polecenia, aby przeprowadzić płynną instalację.

Instalacja OcrPHP za pomocą Composer

composer require fizzday/ocrphp

Instalacja OcrPHP z Github

git clone https://github.com/fizzday/OcrPHP.git 

Możesz pobrać skompilowaną bibliotekę współdzieloną z repozytorium Github.

Rozpoznawanie i ekstrakcja tekstu z obrazu za pomocą PHP

Otwartoźródłowa biblioteka OcrPHP ułatwia oprogramowaniu ładowanie różnych typów obrazów i wyodrębnianie tekstu z tych obrazów przy użyciu kilku linii kodu PHP. Oto bardzo prosty przykład, który wykorzystuje bibliotekę Imagick do załadowania pliku obrazu i stworzenia instancji klasy OcrPHP. Programiści mogą następnie ustawić język i ustawienia silnika OCR przed wykonaniem OCR na obrazie za pomocą metody recognize(). Na koniec wypisuje wyodrębniony tekst przy użyciu metody getText().

Jak wyodrębnić tekst z obrazu przy użyciu biblioteki PHP?

require_once 'OcrPHP/autoload.php';

// Load the image file
$image = new Imagick('path/to/image.jpg');

// Create an instance of the OcrPHP class
$ocr = new OcrPHP();

// Set the language and OCR engine settings
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);

// Perform OCR on the image
$result = $ocr->recognize($image);

// Print the extracted text
echo $result->getText();

Rozpoznawanie tekstu w określonym języku za pomocą PHP

Biblioteka OcrPHP zapewnia wsparcie dla wielu języków, umożliwiając wykonywanie operacji OCR w aplikacjach PHP. Niezależnie od tego, czy tekst jest w języku angielskim, chińskim czy innym obsługiwanym języku, OcrPHP radzi sobie z tym bez problemu. Aby wyodrębnić tekst w określonym języku, przekaż kod języka jako parametr. Upewnij się, że odpowiedni model językowy Tesseract jest zainstalowany. Poniższy przykład pokazuje, jak programiści mogą wyodrębniać tekst z obrazów w języku chińskim w aplikacjach PHP.

Jak wyodrębnić tekst z obrazu w języku chińskim za pomocą PHP?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$imagePath = __DIR__ . '/example-image-chinese.png';

$ocr = new Ocr();

// Extract text in Chinese
$text = $ocr->scan($imagePath, 'chi_sim'); // Use 'eng' for English

echo "Extracted Text (Chinese): \n" . $text;

Przetwarzanie wsadowe i automatyzacja OCR za pomocą PHP

Dla programistów tworzących aplikacje do przetwarzania dokumentów przetwarzanie wsadowe może być cenną funkcją. Otwartoźródłowa OcrPHP ułatwia programistom iterowanie po katalogu plików obrazów i automatyczne wyodrębnianie tekstu z każdego z nich. To doskonałe rozwiązanie do automatyzacji zadań, takich jak skanowanie faktur, paragonów czy książek. Oto bardzo przydatny przykład, który skanuje wszystkie pliki .png w określonym katalogu, wyodrębnia tekst z każdego i wypisuje go. Możesz rozszerzyć to, aby zapisać wynik do pliku lub bazy danych, co czyni go potężnym narzędziem do przetwarzania dokumentów.

Jak wyodrębnić tekst z wielu obrazów przy użyciu biblioteki PHP?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$directory = __DIR__ . '/images/';
$ocr = new Ocr();

foreach (glob($directory . '*.png') as $imagePath) {
    $text = $ocr->scan($imagePath);
    echo "Text from {$imagePath}: \n" . $text . "\n\n";
}

Niestandardowa konfiguracja i wsparcie integracji

Otwartoźródłowa OcrPHP to wszechstronna i przyjazna dla programistów biblioteka, która upraszcza integrację możliwości OCR w projektach PHP. Biblioteka pozwala określić własne konfiguracje Tesseract, takie jak język, tryb segmentacji strony oraz parametry przetwarzania obrazu, oferując elastyczność w dostosowywaniu wyników OCR.

 Polski