OCR テキストおよび画像処理用のオープンソース Java ライブラリ
ソフトウェア開発者が Java アプリに OCR 機能を追加し、スキャンされた画像や PDF ファイルに対して OCR を実行してテキストを簡単に抽出できる、主要な無料 Java ライブラリ。
Asprise OCR SDK for Java は、スキャンされた画像、PDF ファイル、およびその他のドキュメントに対して光学式文字認識 (OCR) を実行する機能を提供する強力なオープン ソース Java SDK です。 使いやすい Java API を備えたこの SDK は、開発者が Java アプリケーションに OCR 機能を迅速かつ簡単に追加するのに役立ちます。 OCR は、コンピューターが画像や文書内のテキストを認識できるようにする非常に便利なテクノロジーです。 OCR ソフトウェアを使用すると、スキャンしたテキストの画像を、コンピュータで編集、検索、または処理できるデジタル テキストに変換できます。
Asprise OCR SDK には、高速 OCR 処理、複数の言語サポート、画像拡張機能、さまざまな形式の認識されたテキストなど、OCR 関連アクティビティを処理するための重要な機能がいくつか組み込まれています。 SDK は、さまざまなフォントや言語のテキストを認識できる高度な OCR テクノロジーに基づいています。 このライブラリは、Java アプレット、Web アプリケーション、Swing/JavaFX コンポーネント、および JEE エンタープライズ アプリケーションのアプリケーションを開発するために使用できます。
Asprise OCR SDK を使用すると、ソフトウェア開発者は、プレーン テキスト、検索可能な PDF、Microsoft Word などのさまざまな形式で認識されたテキストを出力できます。 SDK は、英語、中国語、日本語、アラビア語などを含む 100 以上の言語のテキストを認識できます。 高度な OCR テクノロジー、包括的な言語サポート、使いやすい API を備えたこの SDK は、開発者が OCR アプリケーションを構築する際の時間と労力を節約するのに役立ちます。
Asprise OCR SDK for Java のスタートガイド
Asprise OCR SDK for Java のスタートガイド Asprise OCR SDK for Java をインストールする推奨方法は、Maven を使用することです。 スムーズにインストールするには、次のコマンドを使用してください。
Asprise OCR SDK for Java の Maven 依存関係
<dependencies>
<dependency>
<groupId>com.asprise.ocr</groupId>
<artifactId>java-ocr-api;/artifactId>
<version>[15,)</version>
</dependency>
</dependencies>
GitHub 経由で Asprise OCR SDK for Java をインストールします
git clone https://github.com/Asprise/java-.net-ocr-api-library
Java 経由でテキストをプレーン テキスト形式で抽出する
Asprise OCR SDK for Java は、プレーン テキスト形式の画像からテキストを抽出するための完全な機能を提供します。 このライブラリを使用すると、ユーザーはスキャンしたドキュメントまたは画像のテキスト コンテンツを簡単に取得し、それをさらなる処理や分析に使用できます。 プレーン テキスト抽出タスクを実行するには、まずファイル、入力ストリーム、または URL から画像をロードし、API を使用してロードされた画像に OCR 認識を適用する必要があります。 適切な関数を使用して、認識されたテキストをプレーン テキスト形式で取得します。 以下は、画像をロードし、テキストをプレーンテキストとして認識し、結果をコンソールに出力する方法を示しています。
Lataa kuva ja tunnistettu teksti Java-sovellusliittymän kautta
import com.asprise.ocr.Ocr;
public class OCRTest {
public static void main(String[] args) throws Exception {
// Load image from file
Ocr ocr = new Ocr();
ocr.startEngine("eng", Ocr.SPEED_FASTEST);
String recognizedText = ocr.recognize(new File("image.png"), Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
// Print the plain text output
System.out.println("Recognized Text: " + recognizedText);
ocr.stopEngine();
}
}
Suorita erilaisia OCR-toimintoja Java-sovelluksissa
Asprise OCR SDK for Java API antaa ohjelmistokehittäjille mahdollisuuden suorittaa erilaisia OCR (Optical Character Recognition) -toimintoja erityyppisille asiakirjoille. Kirjasto tukee täysin erilaisia OCR-toimintoja, kuten OCR-kuvatiedostoja, OCR PDF-tiedostoja, OCR käsinkirjoitettua tekstiä, OCR useita kieliä, suorittaa tekstintunnistusta osalle kuvasta, suorittaa tekstintunnistusta useille syöttötiedostoille yhdellä otoksella, suorittaa tekstintunnistusta tietty sivu määritetystä TIFF-tiedostosta, OCR-eräkäsittely ja paljon muuta. Kirjasto tarjoaa tehokkaan ja joustavan työkalun tekstintunnistustoimintojen suorittamiseen erityyppisille asiakirjoille. Useiden kielten, kuva- ja PDF-tiedostojen, käsinkirjoitetun tekstin ja eräkäsittelyn tuen ansiosta voit nopeasti ja tarkasti poimia tekstiä asiakirjoistasi.
Suorita OCR useille tiedostoille Java-kirjaston kautta
String s = ocr.recognize("test.png;test2.jpg", -1, 0, 0, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
perform OCR on a PDF input file:
String s = ocr.recognize("test.pdf", -1, 100, 100, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
Monisäikeinen tuki Asprise OCR:n avulla
Asprise OCR SDK for Java API sisältää täydellisen tuen monisäikeisyydelle, jonka avulla kehittäjät voivat käsitellä useita OCR-tehtäviä samanaikaisesti. Tämän ominaisuuden avulla kehittäjät voivat parantaa OCR-sovellustensa suorituskykyä jakamalla OCR-käsittelyn useille säikeille, jotka voivat toimia samanaikaisesti useissa ytimissä tai prosessoreissa. Monisäikeinen tuki on erittäin muokattavissa, joten kehittäjät voivat hienosäätää säikeiden ja OCR-koneiden määrää vastaamaan käytettävissä olevia resursseja ja käsittelyvaatimuksia. Pääosin Asprise OCR SDK Java:n monisäikeinen tuki tarjoaa kehittäjille tehokkaan ja joustavan työkalun tehokkaiden OCR-sovellusten rakentamiseen, jotka voivat käsitellä suuria tekstimääriä nopeasti ja tehokkaasti.
Vaikean ketjunhallintakoodin kirjoittaminen
OcrExecutorService oes =
new OcrExecutorService("eng", Ocr.SPEED_FASTEST, 4); // 4 threads
List> futures = oes.invokeAll(Arrays.asList(
new OcrExecutorService.OcrCallable(
new File[] {new File("test1.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML),
new OcrExecutorService.OcrCallable(
new File[] {new File("test2.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML)
);
System.out.println("Result of test1.png: " + futures.get(0).get());
System.out.println("Result of test2.png: " + futures.get(1).get());
oes.shutdown(); // stops all OCR engines and disposes all threads