OCR 텍스트 및 이미지 처리를 위한 오픈 소스 Java 라이브러리
소프트웨어 개발자가 Java 앱에 OCR 기능을 추가하고 스캔한 이미지 및 PDF 파일에 대해 OCR을 수행하여 쉽게 텍스트를 추출할 수 있는 최고의 무료 Java 라이브러리입니다.
Aprise OCR SDK for Java는 스캔한 이미지, PDF 파일 및 기타 문서에 대해 광학 문자 인식(OCR)을 수행하는 기능을 제공하는 강력한 오픈 소스 Java SDK입니다. 사용하기 쉬운 Java API를 갖춘 이 SDK는 개발자가 Java 애플리케이션에 OCR 기능을 빠르고 쉽게 추가하는 데 도움이 됩니다. OCR은 컴퓨터가 이미지나 문서의 텍스트를 인식할 수 있도록 하는 매우 유용한 기술입니다. OCR 소프트웨어는 스캔한 텍스트 이미지를 컴퓨터에서 편집, 검색 또는 처리할 수 있는 디지털 텍스트로 변환하는 데 사용할 수 있습니다.
Asprise OCR SDK에는 빠른 OCR 처리, 여러 언어 지원, 이미지 향상 기능, 다양한 형식의 텍스트 인식 등과 같은 OCR 관련 활동을 처리하기 위한 몇 가지 중요한 기능이 포함되어 있습니다. SDK는 다양한 글꼴과 언어로 된 텍스트를 인식할 수 있는 고급 OCR 기술을 기반으로 합니다. 이 라이브러리는 Java 애플릿, 웹 애플리케이션, Swing/JavaFX 구성 요소 및 JEE 엔터프라이즈 애플리케이션용 애플리케이션을 개발하는 데 사용할 수 있습니다.
Asprise OCR SDK를 사용하면 소프트웨어 개발자는 인식된 텍스트를 일반 텍스트, 검색 가능한 PDF, Microsoft Word 등 다양한 형식으로 출력할 수 있습니다. SDK는 영어, 중국어, 일본어, 아랍어 등을 포함하여 100개 이상의 언어로 된 텍스트를 인식할 수 있습니다. 고급 OCR 기술, 포괄적인 언어 지원, 사용하기 쉬운 API를 갖춘 이 SDK는 개발자가 OCR 애플리케이션을 구축할 때 시간과 노력을 절약하는 데 도움이 됩니다.
Java용 Asprise OCR SDK 시작하기
Java용 Asprise OCR SDK 시작하기 Asprise OCR SDK for Java를 설치하는 권장 방법은 Maven을 사용하는 것입니다. 원활한 설치를 위해 다음 명령어를 사용하시기 바랍니다.
Java용 Asprise OCR SDK의 Maven 종속성
<dependencies>
<dependency>
<groupId>com.asprise.ocr</groupId>
<artifactId>java-ocr-api;/artifactId>
<version>[15,)</version>
</dependency>
</dependencies>
GitHub을 통해 Java용 Asprise OCR SDK 설치
git clone https://github.com/Asprise/java-.net-ocr-api-library
Java를 통해 일반 텍스트 형식의 텍스트 추출
Java용 Asprise OCR SDK는 일반 텍스트 형식의 이미지에서 텍스트를 추출하는 완전한 기능을 제공합니다. 라이브러리를 통해 사용자는 스캔한 문서나 이미지의 텍스트 콘텐츠를 쉽게 검색하고 추가 처리 또는 분석에 사용할 수 있습니다. 일반 텍스트 추출 작업을 수행하려면 먼저 파일, 입력 스트림 또는 URL에서 이미지를 로드하고 API를 사용하여 로드된 이미지에 OCR 인식을 적용해야 합니다. 적절한 기능을 사용하여 인식된 텍스트를 일반 텍스트 형식으로 검색합니다. 다음은 이미지와 인식된 텍스트를 일반 텍스트로 로드하고 그 결과를 콘솔에 출력하는 방법을 보여줍니다.
Java API를 통해 이미지 및 인식된 텍스트 로드
import com.asprise.ocr.Ocr;
public class OCRTest {
public static void main(String[] args) throws Exception {
// Load image from file
Ocr ocr = new Ocr();
ocr.startEngine("eng", Ocr.SPEED_FASTEST);
String recognizedText = ocr.recognize(new File("image.png"), Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
// Print the plain text output
System.out.println("Recognized Text: " + recognizedText);
ocr.stopEngine();
}
}
Java 앱에서 다양한 OCR 작업 수행
Java API용 Asprise OCR SDK를 사용하면 소프트웨어 개발자가 다양한 유형의 문서에 대해 다양한 OCR(광학 문자 인식) 작업을 수행할 수 있습니다. 라이브러리는 OCR 이미지 파일, OCR PDF 파일, OCR 필기 텍스트, OCR 다중 언어, 이미지 일부에 대해 OCR 수행, 한 번에 여러 입력 파일에 대해 OCR 수행, 한 번에 OCR 수행 등 다양한 유형의 OCR 작업을 완벽하게 지원합니다. 지정된 TIFF 파일의 특정 페이지, OCR 일괄 처리 등. 라이브러리는 다양한 유형의 문서에 대해 OCR 작업을 수행하기 위한 강력하고 유연한 도구를 제공합니다. 여러 언어, 이미지 및 PDF 파일, 필기 텍스트, 일괄 처리를 지원하므로 문서에서 텍스트를 빠르고 정확하게 추출할 수 있습니다.
Java 라이브러리를 통해 여러 파일에 OCR 수행
String s = ocr.recognize("test.png;test2.jpg", -1, 0, 0, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
perform OCR on a PDF input file:
String s = ocr.recognize("test.pdf", -1, 100, 100, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
Asprise OCR을 사용한 멀티스레딩 지원
Java API용 Asprise OCR SDK에는 멀티 스레딩에 대한 완전한 지원이 포함되어 있어 개발자가 여러 OCR 작업을 동시에 처리할 수 있습니다. 이 기능을 사용하면 개발자는 여러 코어 또는 프로세서에서 동시에 실행할 수 있는 여러 스레드에 OCR 처리를 분산하여 OCR 응용 프로그램의 성능을 향상시킬 수 있습니다. 멀티스레딩 지원은 사용자 정의가 가능하므로 개발자는 사용 가능한 리소스 및 처리 요구 사항에 맞게 스레드 수와 OCR 엔진을 미세 조정할 수 있습니다. 대체로 Java용 Asprise OCR SDK의 멀티스레딩 지원은 개발자에게 대량의 텍스트를 빠르고 효율적으로 처리할 수 있는 고성능 OCR 애플리케이션을 구축하기 위한 강력하고 유연한 도구를 제공합니다.
까다로운 스레드 관리 코드 작성
OcrExecutorService oes =
new OcrExecutorService("eng", Ocr.SPEED_FASTEST, 4); // 4 threads
List> futures = oes.invokeAll(Arrays.asList(
new OcrExecutorService.OcrCallable(
new File[] {new File("test1.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML),
new OcrExecutorService.OcrCallable(
new File[] {new File("test2.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML)
);
System.out.println("Result of test1.png: " + futures.get(0).get());
System.out.println("Result of test2.png: " + futures.get(1).get());
oes.shutdown(); // stops all OCR engines and disposes all threads