Biblioteca Java cu sursă deschisă pentru procesarea textului și imaginilor OCR
O bibliotecă Java gratuită de top, care permite dezvoltatorilor de software să adauge abilități OCR la aplicațiile Java și să efectueze OCR pe imagini scanate și fișiere PDF pentru a extrage text din ele cu ușurință.
Asprise OCR SDK pentru Java este un puternic Java SDK open source care oferă capacitatea de a efectua recunoaștere optică a caracterelor (OCR) pe imagini scanate, fișiere PDF și alte documente. Cu API-ul Java ușor de utilizat, acest SDK îi poate ajuta pe dezvoltatori să adauge rapid și ușor capabilități OCR aplicațiilor lor Java. OCR este o tehnologie foarte utilă care permite computerelor să recunoască textul din imagini sau documente. Software-ul OCR poate fi folosit pentru a converti imaginile scanate de text în text digital care poate fi editat, căutat sau procesat de un computer.
SDK-ul Asprise OCR a inclus câteva caracteristici importante pentru gestionarea activităților legate de OCR, cum ar fi procesarea rapidă a OCR, suport pentru mai multe limbi, o facilitate de îmbunătățire a imaginii, text recunoscut într-o varietate de formate și multe altele. SDK-ul se bazează pe tehnologia OCR avansată care poate recunoaște textul într-o mare varietate de fonturi și limbi. Biblioteca poate fi folosită pentru a dezvolta aplicații pentru applet-uri Java, aplicații web, componente Swing/JavaFX și aplicații pentru întreprinderi JEE.
SDK-ul Asprise OCR permite dezvoltatorilor de software să scoată text recunoscut într-o varietate de formate, inclusiv text simplu, PDF care poate fi căutat și Microsoft Word. SDK-ul poate recunoaște text în peste 100 de limbi, inclusiv engleză, chineză, japoneză, arabă și multe altele. Cu tehnologia sa avansată OCR, suportul cuprinzător al limbajului și API-ul ușor de utilizat, acest SDK poate ajuta dezvoltatorii să economisească timp și efort atunci când construiesc aplicații OCR.
Noțiuni introductive cu Asprise OCR SDK pentru Java
Noțiuni introductive cu Asprise OCR SDK pentru Java Modul recomandat de a instala Asprise OCR SDK pentru Java este folosirea Maven. Vă rugăm să utilizați următoarea comandă pentru o instalare fără probleme.
Dependența Maven pentru Asprise OCR SDK pentru Java
<dependencies>
<dependency>
<groupId>com.asprise.ocr</groupId>
<artifactId>java-ocr-api;/artifactId>
<version>[15,)</version>
</dependency>
</dependencies>
Instalați Asprise OCR SDK pentru Java prin GitHub
git clone https://github.com/Asprise/java-.net-ocr-api-library
Extrageți text în format text simplu prin Java
Asprise OCR SDK pentru Java a oferit o funcționalitate completă pentru extragerea textului din imagini în format text simplu. Biblioteca permite utilizatorilor să recupereze cu ușurință conținutul text al documentelor sau imaginilor scanate și să-l folosească pentru procesare sau analiză ulterioară. Pentru a realiza sarcina de extragere a textului simplu, mai întâi trebuie să încărcați imaginea dintr-un fișier, flux de intrare sau URL și să aplicați recunoașterea OCR imaginii încărcate folosind API-ul. Utilizați funcția corespunzătoare pentru a prelua textul recunoscut în format text simplu. Următoarele arată cum să încărcați o imagine și textul recunoscut ca text simplu, iar rezultatul este tipărit pe consolă.
Încărcați imaginea și textul recunoscut prin API-ul Java
import com.asprise.ocr.Ocr;
public class OCRTest {
public static void main(String[] args) throws Exception {
// Load image from file
Ocr ocr = new Ocr();
ocr.startEngine("eng", Ocr.SPEED_FASTEST);
String recognizedText = ocr.recognize(new File("image.png"), Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
// Print the plain text output
System.out.println("Recognized Text: " + recognizedText);
ocr.stopEngine();
}
}
Efectuați diverse operații OCR în aplicații Java
Asprise OCR SDK pentru Java API permite dezvoltatorilor de software să efectueze diverse operațiuni OCR (recunoaștere optică a caracterelor) pe diferite tipuri de documente. Biblioteca acceptă pe deplin diferite tipuri de operații OCR, cum ar fi fișiere de imagine OCR, fișiere PDF OCR, text scris de mână OCR, mai multe limbi OCR, efectuați OCR pe o parte a imaginii, efectuați OCR pe mai multe fișiere de intrare într-o singură fotografie, efectuați OCR pe o singură fotografie. anumită pagină din fișierul TIFF specificat, procesare în lot OCR și multe altele. Biblioteca oferă un instrument puternic și flexibil pentru efectuarea operațiunilor OCR pe diferite tipuri de documente. Cu suportul pentru mai multe limbi, fișiere imagine și PDF, text scris de mână și procesare în lot, puteți extrage rapid și precis textul din documente.
Efectuați OCR pe mai multe fișiere prin biblioteca Java
String s = ocr.recognize("test.png;test2.jpg", -1, 0, 0, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
perform OCR on a PDF input file:
String s = ocr.recognize("test.pdf", -1, 100, 100, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
Compatibilitate cu mai multe fire folosind Asprise OCR
Asprise OCR SDK pentru Java API a inclus suport complet pentru multi-threading, care permite dezvoltatorilor să proceseze mai multe sarcini OCR simultan. Această caracteristică permite dezvoltatorilor să îmbunătățească performanța aplicațiilor OCR prin distribuirea procesării OCR pe mai multe fire, care pot rula simultan pe mai multe nuclee sau procesoare. Suportul multi-threading este extrem de personalizabil, permițând dezvoltatorilor să ajusteze numărul de fire și motoare OCR pentru a se potrivi cu resursele disponibile și cerințele de procesare. În mare parte, suportul multi-threading de la Asprise OCR SDK pentru Java oferă dezvoltatorilor un instrument puternic și flexibil pentru construirea de aplicații OCR de înaltă performanță care pot procesa volume mari de text rapid și eficient.
Scrierea unui cod de gestionare a firelor complicate
OcrExecutorService oes =
new OcrExecutorService("eng", Ocr.SPEED_FASTEST, 4); // 4 threads
List> futures = oes.invokeAll(Arrays.asList(
new OcrExecutorService.OcrCallable(
new File[] {new File("test1.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML),
new OcrExecutorService.OcrCallable(
new File[] {new File("test2.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML)
);
System.out.println("Result of test1.png: " + futures.get(0).get());
System.out.println("Result of test2.png: " + futures.get(1).get());
oes.shutdown(); // stops all OCR engines and disposes all threads