Open-Source-Java-Bibliothek für OCR-Text- und Bildverarbeitung
Eine führende kostenlose Java-Bibliothek, die es Softwareentwicklern ermöglicht, OCR-Funktionen zu Java-Apps hinzuzufügen und OCR für gescannte Bilder und PDF-Dateien durchzuführen, um problemlos Text daraus zu extrahieren.
Asprise OCR SDK für Java ist ein leistungsstarkes Open-Source-Java-SDK, das die Möglichkeit bietet, optische Zeichenerkennung (OCR) für gescannte Bilder, PDF-Dateien und andere Dokumente durchzuführen. Mit seiner benutzerfreundlichen Java-API kann dieses SDK Entwicklern dabei helfen, OCR-Funktionen schnell und einfach zu ihren Java-Anwendungen hinzuzufügen. OCR ist eine sehr nützliche Technologie, die es Computern ermöglicht, Text in Bildern oder Dokumenten zu erkennen. Mit der OCR-Software können gescannte Textbilder in digitalen Text umgewandelt werden, der von einem Computer bearbeitet, durchsucht oder verarbeitet werden kann.
Das Asprise OCR SDK verfügt über mehrere wichtige Funktionen für die Abwicklung von OCR-bezogenen Aktivitäten, wie z. B. schnelle OCR-Verarbeitung, Unterstützung mehrerer Sprachen, eine Bildverbesserungsfunktion, erkannter Text in verschiedenen Formaten und vieles mehr. Das SDK basiert auf fortschrittlicher OCR-Technologie, die Text in einer Vielzahl von Schriftarten und Sprachen erkennen kann. Mit der Bibliothek können Anwendungen für Java-Applets, Webanwendungen, Swing/JavaFX-Komponenten und JEE-Unternehmensanwendungen entwickelt werden.
Mit dem Asprise OCR SDK können Softwareentwickler erkannten Text in einer Vielzahl von Formaten ausgeben, darunter Nur-Text, durchsuchbares PDF und Microsoft Word. Das SDK kann Texte in über 100 Sprachen erkennen, darunter Englisch, Chinesisch, Japanisch, Arabisch und viele mehr. Mit seiner fortschrittlichen OCR-Technologie, der umfassenden Sprachunterstützung und der benutzerfreundlichen API kann dieses SDK Entwicklern helfen, beim Erstellen von OCR-Anwendungen Zeit und Aufwand zu sparen.
Erste Schritte mit Asprise OCR SDK für Java
Erste Schritte mit dem Asprise OCR SDK für Java Die empfohlene Methode zur Installation des Asprise OCR SDK für Java ist die Verwendung von Maven. Für eine reibungslose Installation verwenden Sie bitte den folgenden Befehl.
Maven-Abhängigkeit für Asprise OCR SDK für Java
<dependencies>
<dependency>
<groupId>com.asprise.ocr</groupId>
<artifactId>java-ocr-api;/artifactId>
<version>[15,)</version>
</dependency>
</dependencies>
Installieren Sie das Asprise OCR SDK für Java über GitHub
git clone https://github.com/Asprise/java-.net-ocr-api-library
Text im Nur-Text-Format über Java extrahieren
Asprise OCR SDK für Java bietet vollständige Funktionalität zum Extrahieren von Text aus Bildern im Nur-Text-Format. Die Bibliothek ermöglicht es Benutzern, den Textinhalt gescannter Dokumente oder Bilder einfach abzurufen und für die weitere Verarbeitung oder Analyse zu verwenden. Um die Aufgabe der Klartextextraktion zu erfüllen, müssen Sie zunächst das Bild aus einer Datei, einem Eingabestream oder einer URL laden und mithilfe der API die OCR-Erkennung auf das geladene Bild anwenden. Verwenden Sie die entsprechende Funktion, um den erkannten Text im Nur-Text-Format abzurufen. Im Folgenden wird gezeigt, wie ein Bild geladen und Text als einfacher Text erkannt und das Ergebnis auf der Konsole ausgegeben wird.
Bild und erkannten Text über Java API laden
import com.asprise.ocr.Ocr;
public class OCRTest {
public static void main(String[] args) throws Exception {
// Load image from file
Ocr ocr = new Ocr();
ocr.startEngine("eng", Ocr.SPEED_FASTEST);
String recognizedText = ocr.recognize(new File("image.png"), Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
// Print the plain text output
System.out.println("Recognized Text: " + recognizedText);
ocr.stopEngine();
}
}
Verschiedene OCR-Vorgänge in Java-Apps durchführen
Asprise OCR SDK für Java API ermöglicht Softwareentwicklern die Durchführung verschiedener OCR-Vorgänge (Optical Character Recognition) für verschiedene Arten von Dokumenten. Die Bibliothek unterstützt vollständig verschiedene Arten von OCR-Vorgängen, wie z. B. OCR-Bilddateien, OCR-PDF-Dateien, handgeschriebenen OCR-Text, OCR in mehreren Sprachen, OCR für einen Teil des Bildes, OCR für mehrere Eingabedateien auf einmal und OCR für ein Bild bestimmte Seite aus der angegebenen TIFF-Datei, OCR-Stapelverarbeitung und vieles mehr. Die Bibliothek bietet ein leistungsstarkes und flexibles Tool zur Durchführung von OCR-Vorgängen für verschiedene Dokumenttypen. Dank der Unterstützung mehrerer Sprachen, Bild- und PDF-Dateien, handschriftlichem Text und Stapelverarbeitung können Sie schnell und präzise Text aus Ihren Dokumenten extrahieren.
Führen Sie OCR für mehrere Dateien über die Java-Bibliothek durch
String s = ocr.recognize("test.png;test2.jpg", -1, 0, 0, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
perform OCR on a PDF input file:
String s = ocr.recognize("test.pdf", -1, 100, 100, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
Multithreading-Unterstützung mit Asprise OCR
Asprise OCR SDK für Java API bietet vollständige Unterstützung für Multithreading, was es Entwicklern ermöglicht, mehrere OCR-Aufgaben gleichzeitig zu verarbeiten. Mit dieser Funktion können Entwickler die Leistung ihrer OCR-Anwendungen verbessern, indem sie die OCR-Verarbeitung auf mehrere Threads verteilen, die gleichzeitig auf mehreren Kernen oder Prozessoren ausgeführt werden können. Die Multithreading-Unterstützung ist hochgradig anpassbar, sodass Entwickler die Anzahl der Threads und OCR-Engines genau an die verfügbaren Ressourcen und Verarbeitungsanforderungen anpassen können. Im Großen und Ganzen bietet die Multithreading-Unterstützung des Asprise OCR SDK für Java Entwicklern ein leistungsstarkes und flexibles Tool zum Erstellen leistungsstarker OCR-Anwendungen, die große Textmengen schnell und effizient verarbeiten können.
Schreiben eines kniffligen Thread-Verwaltungscodes
OcrExecutorService oes =
new OcrExecutorService("eng", Ocr.SPEED_FASTEST, 4); // 4 threads
List> futures = oes.invokeAll(Arrays.asList(
new OcrExecutorService.OcrCallable(
new File[] {new File("test1.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML),
new OcrExecutorService.OcrCallable(
new File[] {new File("test2.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML)
);
System.out.println("Result of test1.png: " + futures.get(0).get());
System.out.println("Result of test2.png: " + futures.get(1).get());
oes.shutdown(); // stops all OCR engines and disposes all threads