Biblioteka Java typu open source do przetwarzania tekstu i obrazu OCR
Wiodąca bezpłatna biblioteka Java, która umożliwia twórcom oprogramowania dodawanie funkcji OCR do aplikacji Java oraz wykonywanie OCR na zeskanowanych obrazach i plikach PDF w celu łatwego wyodrębnienia z nich tekstu.
Asprise OCR SDK dla Java to potężny pakiet Java SDK o otwartym kodzie źródłowym, który umożliwia optyczne rozpoznawanie znaków (OCR) na zeskanowanych obrazach, plikach PDF i innych dokumentach. Dzięki łatwemu w użyciu interfejsowi API języka Java ten zestaw SDK może pomóc programistom szybko i łatwo dodawać funkcje OCR do aplikacji Java. OCR to bardzo przydatna technologia, która umożliwia komputerom rozpoznawanie tekstu na obrazach lub dokumentach. Oprogramowanie OCR może służyć do konwertowania zeskanowanych obrazów tekstu na tekst cyfrowy, który można edytować, wyszukiwać i przetwarzać na komputerze.
Pakiet Asprise OCR SDK zawiera kilka ważnych funkcji do obsługi działań związanych z OCR, takich jak szybkie przetwarzanie OCR, obsługa kilku języków, funkcja ulepszania obrazu, rozpoznawany tekst w różnych formatach i wiele innych. SDK opiera się na zaawansowanej technologii OCR, która rozpoznaje tekst w szerokiej gamie czcionek i języków. Biblioteki można używać do tworzenia aplikacji dla apletów Java, aplikacji internetowych, komponentów Swing/JavaFX i aplikacji korporacyjnych JEE.
Zestaw Asprise OCR SDK umożliwia twórcom oprogramowania wysyłanie rozpoznanego tekstu w różnych formatach, w tym w postaci zwykłego tekstu, plików PDF z możliwością przeszukiwania i programu Microsoft Word. SDK rozpoznaje tekst w ponad 100 językach, w tym angielskim, chińskim, japońskim, arabskim i wielu innych. Dzięki zaawansowanej technologii OCR, kompleksowej obsłudze języków i łatwemu w użyciu interfejsowi API ten zestaw SDK może pomóc programistom zaoszczędzić czas i wysiłek podczas tworzenia aplikacji OCR.
Pierwsze kroki z pakietem SDK Asprise OCR dla Javy
Pierwsze kroki z pakietem Asprise OCR SDK dla języka Java Zalecanym sposobem instalacji Asprise OCR SDK dla Java jest użycie Mavena. Aby instalacja przebiegła bezproblemowo, użyj poniższego polecenia.
Zależność Mavena dla zestawu SDK Asprise OCR dla Javy
<dependencies>
<dependency>
<groupId>com.asprise.ocr</groupId>
<artifactId>java-ocr-api;/artifactId>
<version>[15,)</version>
</dependency>
</dependencies>
Zainstaluj pakiet SDK Asprise OCR dla Java za pośrednictwem GitHuba
git clone https://github.com/Asprise/java-.net-ocr-api-library
Wyodrębnij tekst w formacie zwykłego tekstu za pomocą języka Java
Asprise OCR SDK dla Java zapewnia pełną funkcjonalność wyodrębniania tekstu z obrazów w formacie zwykłego tekstu. Biblioteka pozwala użytkownikom łatwo odzyskać treść tekstową zeskanowanych dokumentów lub obrazów i wykorzystać ją do dalszego przetwarzania lub analizy. Aby wykonać zadanie wyodrębnienia zwykłego tekstu, musisz najpierw załadować obraz z pliku, strumienia wejściowego lub adresu URL i zastosować rozpoznawanie OCR do załadowanego obrazu za pomocą interfejsu API. Użyj odpowiedniej funkcji, aby pobrać rozpoznany tekst w formacie zwykłego tekstu. Poniżej pokazano, jak załadować obraz i rozpoznany tekst jako zwykły tekst, a wynik zostanie wydrukowany na konsoli.
Załaduj obraz i rozpoznany tekst za pośrednictwem interfejsu API języka Java
import com.asprise.ocr.Ocr;
public class OCRTest {
public static void main(String[] args) throws Exception {
// Load image from file
Ocr ocr = new Ocr();
ocr.startEngine("eng", Ocr.SPEED_FASTEST);
String recognizedText = ocr.recognize(new File("image.png"), Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
// Print the plain text output
System.out.println("Recognized Text: " + recognizedText);
ocr.stopEngine();
}
}
Wykonuj różne operacje OCR w aplikacjach Java
Asprise OCR SDK for Java API umożliwia twórcom oprogramowania przeprowadzanie różnych operacji OCR (optycznego rozpoznawania znaków) na różnych typach dokumentów. Biblioteka w pełni obsługuje różne typy operacji OCR, takie jak pliki obrazów OCR, pliki OCR PDF, tekst pisany odręcznie OCR, OCR w wielu językach, wykonywanie OCR na części obrazu, wykonywanie OCR na wielu plikach wejściowych za jednym razem, wykonywanie OCR na określona strona z określonego pliku TIFF, przetwarzanie wsadowe OCR i wiele innych. Biblioteka zapewnia potężne i elastyczne narzędzie do wykonywania operacji OCR na różnych typach dokumentów. Dzięki obsłudze wielu języków, plików graficznych i PDF, tekstu pisanego odręcznie i przetwarzaniu wsadowemu możesz szybko i dokładnie wyodrębniać tekst z dokumentów.
Przeprowadź OCR wielu plików za pomocą biblioteki Java
String s = ocr.recognize("test.png;test2.jpg", -1, 0, 0, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
perform OCR on a PDF input file:
String s = ocr.recognize("test.pdf", -1, 100, 100, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
Wsparcie wielowątkowe przy użyciu Asprise OCR
Asprise OCR SDK dla Java API zawiera pełną obsługę wielowątkowości, która umożliwia programistom jednoczesne przetwarzanie wielu zadań OCR. Ta funkcja umożliwia programistom poprawę wydajności aplikacji OCR poprzez dystrybucję przetwarzania OCR na wiele wątków, które mogą działać jednocześnie na wielu rdzeniach lub procesorach. Obsługa wielowątkowości jest wysoce konfigurowalna, co pozwala programistom dostosować liczbę wątków i silników OCR do dostępnych zasobów i wymagań dotyczących przetwarzania. W dużej mierze pakiet Asprise OCR SDK dla obsługi wielowątkowości Java zapewnia programistom potężne i elastyczne narzędzie do tworzenia wysokowydajnych aplikacji OCR, które mogą szybko i wydajnie przetwarzać duże ilości tekstu.
Pisanie trudnego kodu zarządzającego wątkami
OcrExecutorService oes =
new OcrExecutorService("eng", Ocr.SPEED_FASTEST, 4); // 4 threads
List> futures = oes.invokeAll(Arrays.asList(
new OcrExecutorService.OcrCallable(
new File[] {new File("test1.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML),
new OcrExecutorService.OcrCallable(
new File[] {new File("test2.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML)
);
System.out.println("Result of test1.png: " + futures.get(0).get());
System.out.println("Result of test2.png: " + futures.get(1).get());
oes.shutdown(); // stops all OCR engines and disposes all threads