Open Source JavaScript API do dodawania i zarządzania OCR do aplikacji internetowych

Wiodąca bezpłatna biblioteka JavaScript umożliwiająca dodawanie funkcji optycznego rozpoznawania znaków (OCR) do aplikacji internetowych JS i bezpłatne przekształcanie obrazów tekstu drukowanego lub pisanego odręcznie w tekst czytelny maszynowo.

Tesseract.js to bardzo przydatna biblioteka JavaScript typu open source, która umożliwia twórcom oprogramowania integrację funkcji optycznego rozpoznawania znaków (OCR) z aplikacjami internetowymi przy minimalnym wysiłku i kosztach. OCR to proces przekształcania obrazów tekstu drukowanego lub pisanego odręcznie na tekst nadający się do odczytu maszynowego. Tesseract.js to port popularnego silnika OCR Tesseract, który został pierwotnie opracowany przez firmę Hewlett-Packard w latach 80. XX wieku, a później utrzymywany przez Google. Tesseract.js rozpoznaje ponad 100 języków, co czyni go potężnym narzędziem dla programistów chcących dodać funkcję OCR do swoich aplikacji internetowych.

Tesseract.js jest bardzo łatwy w obsłudze i można go używać do różnych zadań, takich jak wyodrębnianie tekstu ze zeskanowanych dokumentów, paragonów i wizytówek, automatyzowanie zadań wprowadzania danych, a także zwiększanie funkcjonalności wyszukiwania w aplikacjach internetowych. Jedną z kluczowych zalet Tesseract.js jest jego zdolność do rozpoznawania tekstu, nawet jeśli obraz wejściowy jest niskiej jakości lub rozdzielczości. Biblioteka wykorzystuje algorytmy uczenia maszynowego w celu poprawy dokładności wyników OCR. Może także przeprowadzać analizę układu strony i wykrywać interesujące obszary obrazu.

Tesseract.js staje się popularny ze względu na łatwość obsługi oraz potężne możliwości OCR i można go płynnie uruchomić w przeglądarce lub na serwerze z NodeJS. Zapewnia prosty interfejs API, który umożliwia twórcom oprogramowania konfigurowanie opcji OCR, takich jak język, tryb segmentacji strony i znaki z białej listy. Jego zdolność rozpoznawania tekstu w obrazach o niskiej jakości oraz obsługa wielu języków sprawiają, że jest to cenne narzędzie do szerokiej gamy aplikacji i doskonały wybór dla programistów chcących dodać OCR do swoich aplikacji internetowych.

W skrócie

Przegląd funkcji Tesseract.js.

Przegląd funkcji

Wykonaj OCR
Dodaj możliwości OCR
Rozpoznaj tekst obrazu
Przekształcaj obrazy tekstu
Rozpoznany tekst czcionki
Wyszukaj plik PDF
Ponad 100 języków
Twórz aplikacje OCR
Zapisz w przeglądarce
Wyodrębnij tekst
Obsługa wielowątkowości

Tesseract.js

Tesseract.js obsługuje popularne formaty plików graficznych wymienione poniżej.

Czytelnik

PNG, JPEG, BMP, TIFF, TGA, DICOM

Pisarz

PNG, JPEG, BMP, TIFF

Tesseract.js

Niezależność od platformy

Tesseract.js może współpracować z dowolnym językiem programowania opartym na Javie

Java

Tesseract.js

Pierwsze kroki z Tesseract.js

Zalecany sposób instalacji Tesseract.js polega na użyciu npm. Aby instalacja przebiegła bezproblemowo

, użyj poniższego polecenia

Zainstaluj Tesseract.jsvia npm

 npm install tesseract.js

Możesz także zainstalować go ręcznie; pobierz pliki najnowszej wersji bezpośrednio z repozytorium GitHub.

Konwertuj obraz na tekst za pomocą interfejsu API JavaScript

Biblioteka JavaScript o otwartym kodzie źródłowym Tesseract.js ułatwia twórcom oprogramowania pracę z różnymi typami obrazów, takimi jak BMP, JPG, PNG, PBM, WebP i nie tylko. Biblioteka obsługuje wyodrębnianie tekstu z obrazów w celu automatyzacji przetwarzania tekstów na obrazach, plikach PDF i zeskanowanych dokumentach. Poniższy przykład pokazuje, jak załadować obraz i wyodrębnić z niego tekst za pomocą zaledwie kilku linii kodu. Argument języka służy do określenia wytrenowanych danych językowych, które mają być używane podczas przetwarzania obrazów. Twórcy oprogramowania mogą tutaj używać wielu języków.

Jak przekonwertować obraz na tekst przy użyciu API JavaScript?

Tesseract.recognize(
  image,language,
  { 
    logger: m => console.log(m) 
  }
)
.catch (err => {
  console.error(err);
})
.then(result => {
 console.log(result);
})
}

Odczytaj region obrazu i wyodrębnij tekst za pomocą interfejsu API JS

Biblioteka JavaScript typu open source zawiera bardzo przydatne funkcje umożliwiające odczytywanie określonego obszaru obrazu i przechwytywanie jego danych w aplikacjach JavaScript. Interfejs API obsługuje przechwytywanie obszaru obrazu i próbuje rozpoznać tekst w tym obszarze za pomocą wewnętrznego, wydajnego silnika OCR. Poniższe przykłady pokazują, jak twórcy oprogramowania mogą podać adres URL obrazu, a interfejs API może łatwo wykryć i rozpoznać tekst w wybranym obszarze.

Czytanie i rozpoznawanie tekstu w wybranym obszarze obrazu za pomocą interfejsu API JS

const { createWorker } = require('tesseract.js');

const worker = await createWorker();
const rectangle = { left: 0, top: 0, width: 500, height: 250 };

(async () => {
  await worker.loadLanguage('eng');
  await worker.initialize('eng');
  const { data: { text } } = await worker.recognize('https://tesseract.projectnaptha.com/img/eng_bw.png', { rectangle });
  console.log(text);
  await worker.terminate();
})();