1. 产品
  2.   OCR
  3.   Java
  4.   Asprise OCR SDK for Java
 
  

用於 OCR 文字和圖像處理的開源 Java 庫

領先的免費 Java 庫,允許軟體開發人員向 Java 應用程式添加 OCR 功能並對掃描圖像和 PDF 文件執行 OCR,以輕鬆從中提取文字。

Asprise OCR SDK for Java 是一款功能強大的開源 Java SDK,提供對掃描影像、PDF 檔案和其他文件執行光學字元辨識 (OCR) 的功能。憑藉其易於使用的 Java API,該 SDK 可以幫助開發人員快速輕鬆地向其 Java 應用程式添加 OCR 功能。 OCR 是一項非常有用的技術,它使電腦能夠識別圖像或文件中的文字。 OCR 軟體可用於將掃描的文字影像轉換為可由電腦編輯、搜尋或處理的數位文字。

Asprise OCR SDK 包含用於處理 OCR 相關活動的幾個重要功能,例如快速 OCR 處理、多種語言支援、影像增強工具、識別各種格式的文字等等。此 SDK 基於先進的 OCR 技術,可識別多種字體和語言的文字。該程式庫可用於開發 Java 小程式、Web 應用程式、Swing/JavaFX 元件和 JEE 企業應用程式的應用程式。

Asprise OCR SDK 允許軟體開發人員以各種格式輸出已識別的文本,包括純文本、可搜尋 PDF 和 Microsoft Word。此SDK可以辨識100多種語言的文本,包括英文、中文、日文、阿拉伯文等。這款SDK憑藉其先進的OCR技術、全面的語言支援和易於使用的API,可以幫助開發者在建立OCR應用程式時節省時間和精力。

Previous Next

開始使用適用於 Java 的 Asprise OCR SDK

開始使用適用於 Java 的 Asprise OCR SDK 安裝 Asprise OCR SDK for Java 的建議方法是使用 Maven。為了順利安裝,請使用以下命令。

Asprise OCR SDK for Java 的 Maven 依賴項


<dependencies>
	<dependency>
	<groupId>com.asprise.ocr</groupId>
	<artifactId>java-ocr-api;/artifactId>
	<version>[15,)</version>
    </dependency>
</dependencies>

透過 GitHub 安裝適用於 Java 的 Asprise OCR SDK

 git clone https://github.com/Asprise/java-.net-ocr-api-library  

透過 Java 擷取純文字格式的文字

Asprise OCR SDK for Java 提供了從純文字格式的圖像中提取文字的完整功能。該程式庫允許使用者輕鬆檢索掃描文件或圖像的文字內容,並將其用於進一步處理或分析。要實現純文字擷取任務,首先需要從檔案、輸入流或 URL 載入影像,並使用 API 對載入的影像套用 OCR 辨識。使用適當的函數以純文字格式檢索已識別的文字。下面展示如何載入圖像,並將文字識別為純文本,並將結果列印到控制台。

透過 Java API 載入圖像和識別文字

import com.asprise.ocr.Ocr;

public class OCRTest {

    public static void main(String[] args) throws Exception {
        
        // Load image from file
        Ocr ocr = new Ocr();
        ocr.startEngine("eng", Ocr.SPEED_FASTEST);
        String recognizedText = ocr.recognize(new File("image.png"), Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);

        // Print the plain text output
        System.out.println("Recognized Text: " + recognizedText);

        ocr.stopEngine();
    }
}

在 Java 應用程式中執行各種 OCR 操作

Asprise OCR SDK for Java API可讓軟體開發人員對不同類型的文件執行各種OCR(光學字元辨識)操作。該程式庫完全支援不同類型的 OCR 操作,例如 OCR 影像檔案、OCR PDF 檔案、OCR 手寫文字、OCR 多種語言、對部分影像執行 OCR、一次對多個輸入檔案執行 OCR、對多個輸入檔案執行 OCR指定TIFF 檔案中的某些頁面、OCR 批次等等。 該程式庫提供了一個強大而靈活的工具,用於對各種類型的文件執行 OCR 操作。憑藉其對多種語言、圖像和 PDF 文件、手寫文字和批次的支持,您可以快速準確地從文件中提取文字。

透過 Java 函式庫對多個檔案執行 OCR

String s = ocr.recognize("test.png;test2.jpg", -1, 0, 0, 400, 200,
   Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);

perform OCR on a PDF input file:
String s = ocr.recognize("test.pdf", -1, 100, 100, 400, 200,
   Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);

使用 Asprise OCR 的多執行緒支援

Asprise OCR SDK for Java API 完全支援多線程,讓開發人員同時處理多個 OCR 任務。此功能使開發人員能夠透過跨多個執行緒分配 OCR 處理來提高 OCR 應用程式的效能,這些執行緒可以在多個核心或處理器上同時運行。多執行緒支援是高度可自訂的,允許開發人員微調線程和 OCR 引擎的數量,以匹配可用資源和處理要求。很大程度上,Asprise OCR SDK for Java 的多執行緒支援為開發人員提供了強大且靈活的工具,用於建立可以快速且有效率地處理大量文字的高效能 OCR 應用程式。

寫棘手的執行緒管理程式碼

OcrExecutorService oes =
  new OcrExecutorService("eng", Ocr.SPEED_FASTEST, 4); // 4 threads

List> futures = oes.invokeAll(Arrays.asList(
  new OcrExecutorService.OcrCallable(
    new File[] {new File("test1.png")},
      Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML),
  new OcrExecutorService.OcrCallable(
    new File[] {new File("test2.png")},
      Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML)
);

System.out.println("Result of test1.png: " + futures.get(0).get());
System.out.println("Result of test2.png: " + futures.get(1).get());

oes.shutdown(); // stops all OCR engines and disposes all threads
 中国人