1. Produkti
  2.   OCR
  3.   Java
  4.   Asprise OCR SDK for Java
 
  

Atvērtā pirmkoda Java bibliotēka OCR teksta un attēlu apstrādei

Vadošā bezmaksas Java bibliotēka, kas ļauj programmatūras izstrādātājiem pievienot OCR iespējas Java lietotnēm un veikt OCR skenētajiem attēliem un PDF failiem, lai viegli izvilktu no tiem tekstu.

Asprise OCR SDK for Java ir spēcīgs atvērtā pirmkoda Java SDK, kas nodrošina iespēju veikt optisko rakstzīmju atpazīšanu (OCR) skenētiem attēliem, PDF failiem un citiem dokumentiem. Ar savu viegli lietojamo Java API šis SDK var palīdzēt izstrādātājiem ātri un vienkārši pievienot OCR iespējas savām Java lietojumprogrammām. OCR ir ļoti noderīga tehnoloģija, kas ļauj datoriem atpazīt tekstu attēlos vai dokumentos. OCR programmatūru var izmantot, lai pārveidotu skenētus teksta attēlus digitālā tekstā, ko var rediģēt, meklēt vai apstrādāt datorā.

Asprise OCR SDK ir iekļāvis vairākas svarīgas funkcijas, lai apstrādātu ar OCR saistītas darbības, piemēram, ātra OCR apstrāde, vairāku valodu atbalsts, attēla uzlabošanas līdzeklis, atpazīts teksts dažādos formātos un daudz kas cits. SDK pamatā ir uzlabota OCR tehnoloģija, kas var atpazīt tekstu dažādos fontos un valodās. Bibliotēku var izmantot, lai izstrādātu lietojumprogrammas Java sīklietotnēm, tīmekļa lietojumprogrammām, Swing/JavaFX komponentiem un JEE uzņēmuma lietojumprogrammām.

Asprise OCR SDK ļauj programmatūras izstrādātājiem izvadīt atpazītu tekstu dažādos formātos, tostarp vienkāršu tekstu, meklējamo PDF un Microsoft Word. SDK var atpazīt tekstu vairāk nekā 100 valodās, tostarp angļu, ķīniešu, japāņu, arābu un daudzās citās valodās. Ar savu uzlaboto OCR tehnoloģiju, visaptverošo valodu atbalstu un viegli lietojamo API, šis SDK var palīdzēt izstrādātājiem ietaupīt laiku un pūles, veidojot OCR lietojumprogrammas.

Previous Next

Darba sākšana ar Asprise OCR SDK for Java

Darba sākšana ar Asprise OCR SDK darbam ar Java Ieteicamais veids, kā instalēt Asprise OCR SDK for Java, ir izmantot Maven. Lūdzu, izmantojiet šo komandu vienmērīgai instalēšanai.

Maven Dependency for Asprise OCR SDK for Java


<dependencies>
	<dependency>
	<groupId>com.asprise.ocr</groupId>
	<artifactId>java-ocr-api;/artifactId>
	<version>[15,)</version>
    </dependency>
</dependencies>

Instalējiet Asprise OCR SDK priekš Java, izmantojot GitHub

 git clone https://github.com/Asprise/java-.net-ocr-api-library  

Izņemiet tekstu vienkārša teksta formātā, izmantojot Java

Asprise OCR SDK for Java ir nodrošinājis pilnīgu funkcionalitāti teksta izvilkšanai no attēliem vienkārša teksta formātā. Bibliotēka ļauj lietotājiem viegli izgūt skenēto dokumentu vai attēlu teksta saturu un izmantot to tālākai apstrādei vai analīzei. Lai veiktu vienkārša teksta izvilkšanas uzdevumu, vispirms ir jāielādē attēls no faila, ievades straumes vai URL un jāielādē OCR atpazīšana, izmantojot API. Izmantojiet atbilstošo funkciju, lai izgūtu atpazīto tekstu vienkārša teksta formātā. Tālāk ir parādīts, kā ielādēt attēlu un atpazīto tekstu kā vienkāršu tekstu, un rezultāts tiek izdrukāts konsolē.

Ielādējiet attēlu un atpazīto tekstu, izmantojot Java API

import com.asprise.ocr.Ocr;

public class OCRTest {

    public static void main(String[] args) throws Exception {
        
        // Load image from file
        Ocr ocr = new Ocr();
        ocr.startEngine("eng", Ocr.SPEED_FASTEST);
        String recognizedText = ocr.recognize(new File("image.png"), Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);

        // Print the plain text output
        System.out.println("Recognized Text: " + recognizedText);

        ocr.stopEngine();
    }
}

Veiciet dažādas OCR darbības Java lietotnēs

Asprise OCR SDK Java API ļauj programmatūras izstrādātājiem veikt dažādas OCR (optiskās rakstzīmju atpazīšanas) darbības ar dažāda veida dokumentiem. Bibliotēka pilnībā atbalsta dažāda veida OCR darbības, piemēram, OCR attēlu failus, OCR PDF failus, OCR ar roku rakstītu tekstu, OCR vairākas valodas, veic OCR daļai attēla, veic OCR vairākiem ievades failiem vienā kadrā, veic OCR noteikta lapa no norādītā TIFF faila, OCR pakešu apstrāde un daudz kas cits. Bibliotēka nodrošina jaudīgu un elastīgu rīku OCR operāciju veikšanai ar dažāda veida dokumentiem. Pateicoties vairāku valodu, attēlu un PDF failu, ar roku rakstīta teksta un pakešu apstrādes atbalstam, varat ātri un precīzi izvilkt tekstu no saviem dokumentiem.

Veiciet OCR vairākiem failiem, izmantojot Java bibliotēku

String s = ocr.recognize("test.png;test2.jpg", -1, 0, 0, 400, 200,
   Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);

perform OCR on a PDF input file:
String s = ocr.recognize("test.pdf", -1, 100, 100, 400, 200,
   Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);

Vairāku pavedienu atbalsts, izmantojot Asprise OCR

Asprise OCR SDK Java API ir iekļāvis pilnīgu atbalstu vairāku pavedienu veidošanai, kas ļauj izstrādātājiem vienlaikus apstrādāt vairākus OCR uzdevumus. Šī funkcija ļauj izstrādātājiem uzlabot savu OCR lietojumprogrammu veiktspēju, sadalot OCR apstrādi vairākos pavedienos, kas var darboties vienlaikus vairākos kodolos vai procesoros. Vairāku pavedienu atbalsts ir ļoti pielāgojams, ļaujot izstrādātājiem precīzi noregulēt pavedienu skaitu un OCR dzinējus, lai tie atbilstu pieejamajiem resursiem un apstrādes prasībām. Lielākoties Asprise OCR SDK Java vairāku pavedienu atbalstam nodrošina izstrādātājiem jaudīgu un elastīgu rīku augstas veiktspējas OCR lietojumprogrammu izveidei, kas var ātri un efektīvi apstrādāt lielu teksta apjomu.

Sarežģīta pavediena pārvaldības koda rakstīšana

OcrExecutorService oes =
  new OcrExecutorService("eng", Ocr.SPEED_FASTEST, 4); // 4 threads

List> futures = oes.invokeAll(Arrays.asList(
  new OcrExecutorService.OcrCallable(
    new File[] {new File("test1.png")},
      Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML),
  new OcrExecutorService.OcrCallable(
    new File[] {new File("test2.png")},
      Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML)
);

System.out.println("Result of test1.png: " + futures.get(0).get());
System.out.println("Result of test2.png: " + futures.get(1).get());

oes.shutdown(); // stops all OCR engines and disposes all threads
 Latviski