Bibliothèque Java Open Source pour le traitement de texte et d'images OCR
Une bibliothèque Java gratuite de premier plan qui permet aux développeurs de logiciels d'ajouter des fonctionnalités OCR aux applications Java et d'effectuer une OCR sur les images numérisées et les fichiers PDF pour en extraire facilement du texte.
Asprise OCR SDK for Java est un SDK Java open source puissant qui offre la possibilité d'effectuer une reconnaissance optique de caractères (OCR) sur des images numérisées, des fichiers PDF et d'autres documents. Grâce à son API Java facile à utiliser, ce SDK peut aider les développeurs à ajouter rapidement et facilement des fonctionnalités OCR à leurs applications Java. L'OCR est une technologie très utile qui permet aux ordinateurs de reconnaître du texte dans des images ou des documents. Le logiciel OCR peut être utilisé pour convertir des images numérisées de texte en texte numérique pouvant être modifié, recherché ou traité par un ordinateur.
Le SDK Asprise OCR inclut plusieurs fonctionnalités importantes pour gérer les activités liées à l'OCR, telles qu'un traitement OCR rapide, la prise en charge de plusieurs langues, une fonction d'amélioration de l'image, du texte reconnu dans une variété de formats et bien d'autres encore. Le SDK est basé sur une technologie OCR avancée capable de reconnaître du texte dans une grande variété de polices et de langues. La bibliothèque peut être utilisée pour développer des applications pour des applets Java, des applications Web, des composants Swing/JavaFX et des applications d'entreprise JEE.
Le SDK Asprise OCR permet aux développeurs de logiciels de générer du texte reconnu dans une variété de formats, notamment du texte brut, des PDF consultables et Microsoft Word. Le SDK peut reconnaître du texte dans plus de 100 langues, dont l'anglais, le chinois, le japonais, l'arabe et bien d'autres. Grâce à sa technologie OCR avancée, sa prise en charge linguistique complète et son API facile à utiliser, ce SDK peut aider les développeurs à économiser du temps et des efforts lors de la création d'applications OCR.
Premiers pas avec le SDK Asprise OCR pour Java
Premiers pas avec le SDK Asprise OCR pour Java La méthode recommandée pour installer Asprise OCR SDK pour Java consiste à utiliser Maven. Veuillez utiliser la commande suivante pour une installation fluide.
Dépendance Maven pour Asprise OCR SDK pour Java
<dependencies>
<dependency>
<groupId>com.asprise.ocr</groupId>
<artifactId>java-ocr-api;/artifactId>
<version>[15,)</version>
</dependency>
</dependencies>
Installer le SDK Asprise OCR pour Java via GitHub
git clone https://github.com/Asprise/java-.net-ocr-api-library
Extraire le texte au format texte brut via Java
Asprise OCR SDK pour Java fournit des fonctionnalités complètes pour extraire le texte des images au format texte brut. La bibliothèque permet aux utilisateurs de récupérer facilement le contenu textuel des documents ou des images numérisés et de l'utiliser pour un traitement ou une analyse ultérieurs. Pour réaliser la tâche d'extraction de texte brut, vous devez d'abord charger l'image à partir d'un fichier, d'un flux d'entrée ou d'une URL et appliquer la reconnaissance OCR à l'image chargée à l'aide de l'API. Utilisez la fonction appropriée pour récupérer le texte reconnu au format texte brut. Ce qui suit montre comment charger une image et un texte reconnu sous forme de texte brut, et le résultat est imprimé sur la console.
Charger l'image et le texte reconnu via l'API Java
import com.asprise.ocr.Ocr;
public class OCRTest {
public static void main(String[] args) throws Exception {
// Load image from file
Ocr ocr = new Ocr();
ocr.startEngine("eng", Ocr.SPEED_FASTEST);
String recognizedText = ocr.recognize(new File("image.png"), Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
// Print the plain text output
System.out.println("Recognized Text: " + recognizedText);
ocr.stopEngine();
}
}
Effectuer diverses opérations OCR dans les applications Java
L'API Asprise OCR SDK pour Java permet aux développeurs de logiciels d'effectuer diverses opérations OCR (Optical Character Recognition) sur différents types de documents. La bibliothèque prend entièrement en charge différents types d'opérations OCR, telles que les fichiers image OCR, les fichiers PDF OCR, le texte manuscrit OCR, l'OCR en plusieurs langues, l'OCR sur une partie de l'image, l'OCR sur plusieurs fichiers d'entrée en une seule fois, l'OCR sur un certaine page du fichier TIFF spécifié, traitement par lots OCR et bien d'autres. La bibliothèque fournit un outil puissant et flexible pour effectuer des opérations OCR sur différents types de documents. Grâce à sa prise en charge de plusieurs langues, de fichiers image et PDF, de texte manuscrit et de traitement par lots, vous pouvez extraire rapidement et avec précision le texte de vos documents.
Effectuer l'OCR sur plusieurs fichiers via la bibliothèque Java
String s = ocr.recognize("test.png;test2.jpg", -1, 0, 0, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
perform OCR on a PDF input file:
String s = ocr.recognize("test.pdf", -1, 100, 100, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
Prise en charge du multithreading avec Asprise OCR
L'API Asprise OCR SDK pour Java inclut une prise en charge complète du multithreading, ce qui permet aux développeurs de traiter plusieurs tâches OCR simultanément. Cette fonctionnalité permet aux développeurs d'améliorer les performances de leurs applications OCR en répartissant le traitement OCR sur plusieurs threads, qui peuvent s'exécuter simultanément sur plusieurs cœurs ou processeurs. La prise en charge multithread est hautement personnalisable, permettant aux développeurs d'affiner le nombre de threads et de moteurs OCR en fonction des ressources disponibles et des exigences de traitement. En grande partie, la prise en charge multithread d'Asprise OCR SDK pour Java fournit aux développeurs un outil puissant et flexible pour créer des applications OCR hautes performances capables de traiter de grands volumes de texte rapidement et efficacement.
Écrire un code de gestion des threads délicats
OcrExecutorService oes =
new OcrExecutorService("eng", Ocr.SPEED_FASTEST, 4); // 4 threads
List> futures = oes.invokeAll(Arrays.asList(
new OcrExecutorService.OcrCallable(
new File[] {new File("test1.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML),
new OcrExecutorService.OcrCallable(
new File[] {new File("test2.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML)
);
System.out.println("Result of test1.png: " + futures.get(0).get());
System.out.println("Result of test2.png: " + futures.get(1).get());
oes.shutdown(); // stops all OCR engines and disposes all threads