1. 제품
  2.   OCR
  3.   Java
  4.   Tess4J
 
  

OCR 텍스트 추출 및 문서 분석을 위한 무료 Java 라이브러리

OCR 기능을 Java 앱에 통합하고 이미지 및 스캔한 문서에서 텍스트를 추출할 수 있는 오픈 소스 Java OCR 라이브러리입니다.

오늘날 디지털 시대에 광학 문자 인식(OCR)은 이미지와 스캔한 문서에서 텍스트를 추출하는 데 필수적인 도구가 되었습니다. OCR 기술을 사용하면 인쇄되거나 손으로 쓴 텍스트를 기계가 읽을 수 있는 데이터로 변환할 수 있어 문서 분석, 데이터 추출 및 자동화에 대한 다양한 가능성이 열립니다. 사용 가능한 많은 OCR 솔루션 중에서 Tess4J는 Tesseract OCR 엔진의 다양성과 Java 프로그래밍의 단순성을 결합한 강력한 오픈 소스 라이브러리로 돋보입니다.

Tess4J 라이브러리는 Java 개발자가 OCR 기능을 애플리케이션에 원활하게 통합할 수 있도록 지원합니다. 원래 Hewlett-Packard에서 개발하고 현재 Google에서 유지 관리하는 OCR 엔진인 Tesseract용 Java 래퍼입니다. Tess4J는 정확성으로 유명한 Tesseract의 OCR 엔진을 활용합니다. 고급 알고리즘과 기계 학습 기술을 사용하여 이미지에서 안정적인 텍스트 추출을 달성하고 고품질 결과를 보장합니다. Java 애플리케이션에 OCR 통합이 가능해 Windows, Linux, macOS를 포함한 다양한 플랫폼과 호환됩니다.

Tess4J는 간단하고 잘 문서화된 API를 제공하므로 개발자가 OCR 기능을 Java 애플리케이션에 쉽게 통합할 수 있습니다. Tess4J는 개발자가 강력한 OCR 기능을 Java 애플리케이션에 통합할 수 있도록 지원하는 다재다능하고 강력한 오픈 소스 라이브러리입니다. 다국어 지원, 이미지 전처리 기능, PDF 변환 기능 및 신뢰도 점수 시스템을 갖춘 Tess4J는 텍스트 추출 및 문서 분석을 위한 효율적이고 안정적인 솔루션을 제공합니다.

Previous Next

Tess4J 시작하기

Tess4J를 설치하는 권장 방법은 Maven을 사용하는 것입니다. 원활한 설치를 위해 다음 명령어를 사용하시기 바랍니다.

Tess4J에 대한 Maven 종속성


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

GitHub을 통해 Tess4J 설치

 git clone https://github.com/nguyenq/tess4j.git  

수동으로 설치할 수도 있습니다. GitHub 저장소에서 직접 최신 릴리스 파일을 다운로드하세요.

Java API를 통한 콘텐츠 추출

오픈 소스 Tess4J 라이브러리를 사용하면 소프트웨어 개발자는 Java 애플리케이션 내부의 다양한 유형의 이미지에서 텍스트를 추출할 수 있습니다. 라이브러리를 사용하면 이미지에서 텍스트를 추출할 수 있으므로 애플리케이션이 텍스트 콘텐츠를 분석하고 처리할 수 있습니다. 이 기능은 감정 분석, 텍스트 요약, 정보 검색과 같은 영역에서 애플리케이션을 찾습니다. 또한 라이브러리를 사용하면 Tesseract OCR 엔진을 쉽게 로드하고, 지정된 이미지에서 콘텐츠 추출을 수행하고, 추출된 텍스트를 콘솔에 인쇄할 수 있습니다.

Java OCR 라이브러리를 사용하여 콘텐츠 추출 수행

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

Java API를 통해 일반 텍스트로 PDF 변환

오픈 소스 Tess4J 라이브러리는 Java 애플리케이션 내에서 PDF 문서를 일반 텍스트로 로드하고 변환하기 위한 완전한 기능을 제공합니다. Tess4J는 검색 가능한 PDF 문서를 일반 텍스트로 변환하여 개발자가 PDF 파일에서 콘텐츠를 추출하고 추가 분석 또는 데이터 처리를 수행할 수 있도록 합니다. 다음 예는 소프트웨어 개발자가 Java 애플리케이션 내에서 기존 PDF 파일을 일반 텍스트로 변환하는 방법을 보여줍니다.

기존 PDF 파일을 일반 텍스트로 변환하는 방법은 무엇입니까?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}

 한국인