Open Source Java-bibliotek for OCR-tekst- og bildebehandling
Et ledende gratis Java-bibliotek som lar programvareutviklere legge til OCR-funksjoner til Java-apper og utføre OCR på skannede bilder og PDF-filer for å enkelt trekke ut tekst fra dem.
Asprise OCR SDK for Java er en kraftig Java SDK med åpen kildekode som gir mulighet for å utføre optisk tegngjenkjenning (OCR) på skannede bilder, PDF-filer og andre dokumenter. Med sin brukervennlige Java API kan denne SDK hjelpe utviklere å legge til OCR-funksjoner til Java-applikasjonene sine raskt og enkelt. OCR er en svært nyttig teknologi som gjør det mulig for datamaskiner å gjenkjenne tekst i bilder eller dokumenter. OCR-programvaren kan brukes til å konvertere skannede bilder av tekst til digital tekst som kan redigeres, søkes i eller behandles av en datamaskin.
Asprise OCR SDK har inkludert flere viktige funksjoner for å håndtere OCR-relaterte aktiviteter, for eksempel rask OCR-behandling, støtte for flere språk, en bildeforbedringsfunksjon, gjenkjent tekst i en rekke formater og mange flere. SDK-en er basert på avansert OCR-teknologi som kan gjenkjenne tekst i en lang rekke fonter og språk. Biblioteket kan brukes til å utvikle applikasjoner for Java-appleter, webapplikasjoner, Swing/JavaFX-komponenter og JEE-bedriftsapplikasjoner.
Asprise OCR SDK lar programvareutviklere sende ut gjenkjent tekst i en rekke formater, inkludert ren tekst, søkbar PDF og Microsoft Word. SDK-en kan gjenkjenne tekst på over 100 språk, inkludert engelsk, kinesisk, japansk, arabisk og mange flere. Med sin avanserte OCR-teknologi, omfattende språkstøtte og brukervennlige API, kan denne SDK-en hjelpe utviklere med å spare tid og krefter når de bygger OCR-applikasjoner.
Kom i gang med Asprise OCR SDK for Java
Komme i gang med Asprise OCR SDK for Java Den anbefalte måten å installere Asprise OCR SDK for Java på er å bruke Maven. Bruk følgende kommando for en jevn installasjon.
Maven Dependency for Asprise OCR SDK for Java
<dependencies>
<dependency>
<groupId>com.asprise.ocr</groupId>
<artifactId>java-ocr-api;/artifactId>
<version>[15,)</version>
</dependency>
</dependencies>
Installer Asprise OCR SDK for Java via GitHub
git clone https://github.com/Asprise/java-.net-ocr-api-library
trekk ut tekst i vanlig tekstformat via Java
Asprise OCR SDK for Java har gitt komplett funksjonalitet for å trekke ut tekst fra bilder i vanlig tekstformat. Biblioteket lar brukere enkelt hente tekstinnholdet i skannede dokumenter eller bilder, og bruke det til videre bearbeiding eller analyse. For å oppnå oppgaven for uttrekking av ren tekst må du først laste inn bildet fra en fil, inndatastrøm eller URL og bruke OCR-gjenkjenning på det innlastede bildet ved hjelp av API. Bruk riktig funksjon for å hente gjenkjent tekst i ren tekstformat. Følgende viser hvordan du laster et bilde, og gjenkjent tekst som ren tekst, og resultatet skrives ut til konsollen.
Last inn bilde og gjenkjent tekst via Java API
import com.asprise.ocr.Ocr;
public class OCRTest {
public static void main(String[] args) throws Exception {
// Load image from file
Ocr ocr = new Ocr();
ocr.startEngine("eng", Ocr.SPEED_FASTEST);
String recognizedText = ocr.recognize(new File("image.png"), Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
// Print the plain text output
System.out.println("Recognized Text: " + recognizedText);
ocr.stopEngine();
}
}
Utfør forskjellige OCR-operasjoner i Java-apper
Asprise OCR SDK for Java API lar programvareutviklere utføre ulike OCR-operasjoner (Optical Character Recognition) på forskjellige typer dokumenter. Biblioteket støtter fullt ut ulike typer OCR-operasjoner, for eksempel OCR-bildefiler, OCR PDF-filer, OCR håndskrevet tekst, OCR flere språk, utfør OCR på en del av bildet, utfør OCR på flere inndatafiler i ett opptak, utfør OCR på en bestemt side fra den angitte TIFF-filen, OCR Batch Processing og mange flere. Biblioteket gir et kraftig og fleksibelt verktøy for å utføre OCR-operasjoner på ulike typer dokumenter. Med støtte for flere språk, bilde- og PDF-filer, håndskrevet tekst og batchbehandling, kan du raskt og nøyaktig trekke ut tekst fra dokumentene dine.
Utfør OCR på flere filer via Java Library
String s = ocr.recognize("test.png;test2.jpg", -1, 0, 0, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
perform OCR on a PDF input file:
String s = ocr.recognize("test.pdf", -1, 100, 100, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
Støtte for flere tråder ved bruk av Asprise OCR
Asprise OCR SDK for Java API har inkludert fullstendig støtte for multi-threading, som lar utviklere behandle flere OCR-oppgaver samtidig. Denne funksjonen gjør det mulig for utviklere å forbedre ytelsen til sine OCR-applikasjoner ved å distribuere OCR-behandling på tvers av flere tråder, som kan kjøres samtidig på flere kjerner eller prosessorer. Multi-threading-støtten er svært tilpassbar, slik at utviklere kan finjustere antall tråder og OCR-motorer for å matche de tilgjengelige ressursene og behandlingskravene. Stort sett gir Asprise OCR SDK for Javas flertrådsstøtte utviklere et kraftig og fleksibelt verktøy for å bygge høyytelses OCR-applikasjoner som kan behandle store tekstvolumer raskt og effektivt.
Skrive vanskelig trådadministrasjonskode
sOcrExecutorService oes =
new OcrExecutorService("eng", Ocr.SPEED_FASTEST, 4); // 4 threads
List> futures = oes.invokeAll(Arrays.asList(
new OcrExecutorService.OcrCallable(
new File[] {new File("test1.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML),
new OcrExecutorService.OcrCallable(
new File[] {new File("test2.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML)
);
System.out.println("Result of test1.png: " + futures.get(0).get());
System.out.println("Result of test2.png: " + futures.get(1).get());
oes.shutdown(); // stops all OCR engines and disposes all threads