Biblioteca Java de código abierto para procesamiento de imágenes y texto OCR
Una biblioteca Java gratuita líder que permite a los desarrolladores de software agregar capacidades de OCR a aplicaciones Java y realizar OCR en imágenes escaneadas y archivos PDF para extraer texto de ellos con facilidad.
Asprise OCR SDK para Java es un potente SDK de Java de código abierto que proporciona la capacidad de realizar reconocimiento óptico de caracteres (OCR) en imágenes escaneadas, archivos PDF y otros documentos. Con su API Java fácil de usar, este SDK puede ayudar a los desarrolladores a agregar capacidades de OCR a sus aplicaciones Java de forma rápida y sencilla. OCR es una tecnología muy útil que permite a las computadoras reconocer texto en imágenes o documentos. El software OCR se puede utilizar para convertir imágenes escaneadas de texto en texto digital que se puede editar, buscar o procesar con una computadora.
El SDK de OCR de Asprise ha incluido varias características importantes para manejar actividades relacionadas con OCR, como procesamiento rápido de OCR, soporte para varios idiomas, función de mejora de imágenes, texto reconocido en una variedad de formatos y mucho más. El SDK se basa en tecnología OCR avanzada que puede reconocer texto en una amplia variedad de fuentes e idiomas. La biblioteca se puede utilizar para desarrollar aplicaciones para subprogramas Java, aplicaciones web, componentes Swing/JavaFX y aplicaciones empresariales JEE.
El SDK de OCR de Asprise permite a los desarrolladores de software generar texto reconocido en una variedad de formatos, incluido texto sin formato, PDF con capacidad de búsqueda y Microsoft Word. El SDK puede reconocer texto en más de 100 idiomas, incluidos inglés, chino, japonés, árabe y muchos más. Con su avanzada tecnología OCR, soporte integral de idiomas y API fácil de usar, este SDK puede ayudar a los desarrolladores a ahorrar tiempo y esfuerzo al crear aplicaciones OCR.
Introducción a Asprise OCR SDK para Java
Introducción al SDK de OCR de Asprise para Java La forma recomendada de instalar Asprise OCR SDK para Java es utilizar Maven. Utilice el siguiente comando para una instalación sin problemas.
Dependencia de Maven para Asprise OCR SDK para Java
<dependencies>
<dependency>
<groupId>com.asprise.ocr</groupId>
<artifactId>java-ocr-api;/artifactId>
<version>[15,)</version>
</dependency>
</dependencies>
Instalar Asprise OCR SDK para Java a través de GitHub
git clone https://github.com/Asprise/java-.net-ocr-api-library
Extraer texto en formato de texto plano mediante Java
Asprise OCR SDK para Java ha proporcionado una funcionalidad completa para extraer texto de imágenes en formato de texto sin formato. La biblioteca permite a los usuarios recuperar fácilmente el contenido de texto de documentos o imágenes escaneados y utilizarlo para su posterior procesamiento o análisis. Para realizar la tarea de extracción de texto sin formato, primero debe cargar la imagen desde un archivo, flujo de entrada o URL y aplicar el reconocimiento OCR a la imagen cargada mediante la API. Utilice la función adecuada para recuperar el texto reconocido en formato de texto sin formato. A continuación se muestra cómo cargar una imagen y reconocer el texto como texto sin formato y el resultado se imprime en la consola.
Cargar imagen y texto reconocido mediante la API de Java
import com.asprise.ocr.Ocr;
public class OCRTest {
public static void main(String[] args) throws Exception {
// Load image from file
Ocr ocr = new Ocr();
ocr.startEngine("eng", Ocr.SPEED_FASTEST);
String recognizedText = ocr.recognize(new File("image.png"), Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
// Print the plain text output
System.out.println("Recognized Text: " + recognizedText);
ocr.stopEngine();
}
}
Realizar varias operaciones de OCR en aplicaciones Java
Asprise OCR SDK para Java API permite a los desarrolladores de software realizar varias operaciones de OCR (reconocimiento óptico de caracteres) en diferentes tipos de documentos. La biblioteca es totalmente compatible con diferentes tipos de operaciones de OCR, como archivos de imagen OCR, archivos PDF OCR, texto escrito a mano OCR, OCR en varios idiomas, realizar OCR en parte de la imagen, realizar OCR en varios archivos de entrada de una sola vez, realizar OCR en una determinada página del archivo TIFF especificado, procesamiento por lotes OCR y muchos más. La biblioteca proporciona una herramienta poderosa y flexible para realizar operaciones de OCR en varios tipos de documentos. Con soporte para múltiples idiomas, archivos de imagen y PDF, texto escrito a mano y procesamiento por lotes, puede extraer texto de sus documentos de manera rápida y precisa.
Realizar OCR en varios archivos a través de la biblioteca Java
String s = ocr.recognize("test.png;test2.jpg", -1, 0, 0, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
perform OCR on a PDF input file:
String s = ocr.recognize("test.pdf", -1, 100, 100, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
Compatibilidad con subprocesos múltiples mediante Asprise OCR
Asprise OCR SDK para Java API ha incluido soporte completo para subprocesos múltiples, lo que permite a los desarrolladores procesar múltiples tareas de OCR simultáneamente. Esta característica permite a los desarrolladores mejorar el rendimiento de sus aplicaciones de OCR distribuyendo el procesamiento de OCR en múltiples subprocesos, que pueden ejecutarse simultáneamente en múltiples núcleos o procesadores. El soporte de subprocesos múltiples es altamente personalizable, lo que permite a los desarrolladores ajustar la cantidad de subprocesos y motores de OCR para que coincidan con los recursos disponibles y los requisitos de procesamiento. En gran medida, el soporte multiproceso de Asprise OCR SDK para Java proporciona a los desarrolladores una herramienta potente y flexible para crear aplicaciones OCR de alto rendimiento que pueden procesar grandes volúmenes de texto de forma rápida y eficiente.
Escribir código de gestión de hilos complicados
OcrExecutorService oes =
new OcrExecutorService("eng", Ocr.SPEED_FASTEST, 4); // 4 threads
List> futures = oes.invokeAll(Arrays.asList(
new OcrExecutorService.OcrCallable(
new File[] {new File("test1.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML),
new OcrExecutorService.OcrCallable(
new File[] {new File("test2.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML)
);
System.out.println("Result of test1.png: " + futures.get(0).get());
System.out.println("Result of test2.png: " + futures.get(1).get());
oes.shutdown(); // stops all OCR engines and disposes all threads