Libreria Java open source per l'elaborazione di testo e immagini OCR
Una delle principali librerie Java gratuite che consente agli sviluppatori di software di aggiungere funzionalità OCR alle app Java ed eseguire l'OCR su immagini scansionate e file PDF per estrarre facilmente il testo da essi.
Asprise OCR SDK per Java è un potente SDK Java open source che offre la possibilità di eseguire il riconoscimento ottico dei caratteri (OCR) su immagini scansionate, file PDF e altri documenti. Grazie alla sua API Java di facile utilizzo, questo SDK può aiutare gli sviluppatori ad aggiungere funzionalità OCR alle loro applicazioni Java in modo rapido e semplice. L'OCR è una tecnologia molto utile che consente ai computer di riconoscere il testo nelle immagini o nei documenti. Il software OCR può essere utilizzato per convertire immagini di testo scansionate in testo digitale che può essere modificato, cercato o elaborato da un computer.
L'SDK Asprise OCR ha incluso diverse funzionalità importanti per la gestione delle attività correlate all'OCR, come l'elaborazione OCR rapida, il supporto di diverse lingue, una funzione di miglioramento delle immagini, testo riconosciuto in una varietà di formati e molto altro. L'SDK si basa sulla tecnologia OCR avanzata in grado di riconoscere il testo in un'ampia varietà di caratteri e lingue. La libreria può essere utilizzata per sviluppare applicazioni per applet Java, applicazioni web, componenti Swing/JavaFX e applicazioni aziendali JEE.
L'SDK Asprise OCR consente agli sviluppatori di software di produrre testo riconosciuto in una varietà di formati, tra cui testo semplice, PDF ricercabile e Microsoft Word. L'SDK è in grado di riconoscere il testo in oltre 100 lingue, tra cui inglese, cinese, giapponese, arabo e molte altre. Grazie alla tecnologia OCR avanzata, al supporto linguistico completo e all'API di facile utilizzo, questo SDK può aiutare gli sviluppatori a risparmiare tempo e fatica durante la creazione di applicazioni OCR.
Introduzione a Asprise OCR SDK per Java
Introduzione a Asprise OCR SDK per Java Il modo consigliato per installare Asprise OCR SDK per Java è utilizzare Maven. Si prega di utilizzare il seguente comando per un'installazione fluida.
Dipendenza Maven per Asprise OCR SDK per Java
<dependencies>
<dependency>
<groupId>com.asprise.ocr</groupId>
<artifactId>java-ocr-api;/artifactId>
<version>[15,)</version>
</dependency>
</dependencies>
Installa Asprise OCR SDK per Java tramite GitHub
git clone https://github.com/Asprise/java-.net-ocr-api-library
Estrai testo in formato testo normale tramite Java
Asprise OCR SDK per Java ha fornito funzionalità complete per l'estrazione di testo da immagini in formato testo normale. La libreria consente agli utenti di recuperare facilmente il contenuto testuale di documenti o immagini scansionati e di utilizzarlo per ulteriori elaborazioni o analisi. Per eseguire l'attività di estrazione del testo semplice è necessario prima caricare l'immagine da un file, flusso di input o URL e applicare il riconoscimento OCR all'immagine caricata utilizzando l'API. Utilizzare la funzione appropriata per recuperare il testo riconosciuto in formato testo normale. Di seguito viene mostrato come caricare un'immagine e riconoscere il testo come testo normale e il risultato viene stampato sulla console.
Carica immagine e testo riconosciuto tramite API Java
import com.asprise.ocr.Ocr;
public class OCRTest {
public static void main(String[] args) throws Exception {
// Load image from file
Ocr ocr = new Ocr();
ocr.startEngine("eng", Ocr.SPEED_FASTEST);
String recognizedText = ocr.recognize(new File("image.png"), Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
// Print the plain text output
System.out.println("Recognized Text: " + recognizedText);
ocr.stopEngine();
}
}
Esegui varie operazioni OCR nelle app Java
L'API Asprise OCR SDK per Java consente agli sviluppatori di software di eseguire varie operazioni OCR (riconoscimento ottico dei caratteri) su diversi tipi di documenti. La libreria supporta completamente diversi tipi di operazioni OCR, come file di immagine OCR, file PDF OCR, testo scritto a mano OCR, più lingue OCR, esegui OCR su parte dell'immagine, esegui OCR su più file di input in un colpo solo, esegui OCR su un determinata pagina dal file TIFF specificato, elaborazione batch OCR e molto altro. La libreria fornisce uno strumento potente e flessibile per eseguire operazioni OCR su vari tipi di documenti. Grazie al supporto di più lingue, file immagine e PDF, testo scritto a mano ed elaborazione batch, puoi estrarre testo in modo rapido e preciso dai tuoi documenti.
Esegui l'OCR su più file tramite la libreria Java
String s = ocr.recognize("test.png;test2.jpg", -1, 0, 0, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
perform OCR on a PDF input file:
String s = ocr.recognize("test.pdf", -1, 100, 100, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
Supporto multi-threading utilizzando Asprise OCR
L'API Asprise OCR SDK per Java ha incluso il supporto completo per il multi-threading, che consente agli sviluppatori di elaborare più attività OCR contemporaneamente. Questa funzionalità consente agli sviluppatori di migliorare le prestazioni delle proprie applicazioni OCR distribuendo l'elaborazione OCR su più thread, che possono essere eseguiti contemporaneamente su più core o processori. Il supporto multi-threading è altamente personalizzabile e consente agli sviluppatori di ottimizzare il numero di thread e motori OCR per soddisfare le risorse disponibili e i requisiti di elaborazione. In gran parte, il supporto multi-threading di Asprise OCR SDK per Java fornisce agli sviluppatori uno strumento potente e flessibile per creare applicazioni OCR ad alte prestazioni in grado di elaborare grandi volumi di testo in modo rapido ed efficiente.
Scrivere il codice di gestione del thread complicato
OcrExecutorService oes =
new OcrExecutorService("eng", Ocr.SPEED_FASTEST, 4); // 4 threads
List> futures = oes.invokeAll(Arrays.asList(
new OcrExecutorService.OcrCallable(
new File[] {new File("test1.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML),
new OcrExecutorService.OcrCallable(
new File[] {new File("test2.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML)
);
System.out.println("Result of test1.png: " + futures.get(0).get());
System.out.println("Result of test2.png: " + futures.get(1).get());
oes.shutdown(); // stops all OCR engines and disposes all threads