이미지 PDF를 검색 가능하게 만드는 오픈 소스 Python OCR API

OCR 프로세스를 자동화하고 스캔한 이미지 PDF를 완전히 검색 가능한 문서로 쉽게 변환하는 강력한 무료 Python OCR API입니다.

광학 문자 인식(OCR) 기술은 문서 처리 방식을 혁신하여 귀중한 정보를 효율적으로 추출할 수 있게 해주었습니다. 사용 가능한 많은 OCR 도구 중에서 OCRmyPDF는 사용 편의성과 탁월한 정확성을 결합한 다재다능하고 강력한 Python 라이브러리로 돋보입니다. OCRmyPDF는 기존 PDF 파일에 OCR을 추가하기 위해 특별히 설계된 오픈 소스 명령줄 도구이자 Python 라이브러리입니다. 라이브러리는 PDF 파일의 각 페이지를 분석하여 콘텐츠 손실 없이 해당 페이지의 모든 정보를 캡처하는 데 필요한 색공간과 해상도(DPI)를 결정합니다.

오픈 소스 OCRmyPDF 라이브러리는 스캔한 이미지, 기존 PDF, 심지어 DjVu 파일까지 포함하여 광범위한 입력 형식을 지원합니다. "이미지 + 텍스트"를 전제로 작동하며 원본 문서의 구조와 형식을 유지하여 고품질 출력을 생성하는 것을 목표로 합니다. 라이브러리는 PDF 최적화 기술을 사용하여 가능한 최고 품질을 유지하면서 파일 크기를 줄입니다. 압축 및 다운샘플링을 적용하면 결과 OCR 지원 PDF 파일을 효율적으로 저장하고 빠르게 로드할 수 있습니다.

OCRmyPDF는 100개 이상의 언어를 지원하는 강력한 Tesseract OCR 엔진을 활용합니다. 고급 알고리즘은 품질이 낮거나 왜곡된 이미지에서도 텍스트를 정확하게 인식합니다. 라이브러리는 일반 PDF에서 검색 가능한 PDF/A 파일을 쉽게 생성할 수 있도록 지원합니다. 또한 기울기 보정과 같은 일부 이미지 처리 옵션을 제공하여 파일 모양과 OCR 품질을 향상시킵니다. 이를 사용하면 처리된 이미지에 OCR 레이어가 대신 접목됩니다. 다국어 지원, PDF 최적화, 텍스트 레이어 제어 및 자동화된 처리를 포함한 포괄적인 기능 세트는 기업, 연구원, 기록 보관자 및 대용량 스캔 문서를 다루는 모든 사람에게 유용한 도구입니다.

한눈에 보기

OCRmyPDF 기능 개요

기능 개요

OCR 수행
OCR 기능 추가
이미지 텍스트 인식
텍스트 이미지 변환
인식된 글꼴 텍스트
PDF 검색
기타 언어
OCR 앱 만들기
브라우저에 저장
텍스트 추출
멀티스레딩 지원

OCRmyPDF

OCRmyPDF는 아래 나열된 널리 사용되는 이미지 파일 형식을 지원합니다.

리더

PNG, JPEG, BMP, TIFF, TGA, DICOM

작가

PNG, JPEG, BMP, TIFF

OCRmyPDF

플랫폼 독립성

OCRmyPDF는 Python 2.7 이상에서 작동할 수 있습니다.

Python 2.7 이상.

OCRmyPDF

OCRmyPDF 시작하기

OCRmyPDF를 설치하는 권장 방법은 pip를 사용하는 것입니다. 원활한 설치를 위해 다음 명령어를 사용하시기 바랍니다.

pip를 통해 OCRmyPDF 설치

 pip install ocrmypdf

수동으로 설치할 수도 있습니다. GitHub 저장소에서 직접 최신 릴리스 파일을 다운로드하세요.

Python API를 사용한 PDF 최적화

오픈 소스 OCRmyPDF 라이브러리는 Python 애플리케이션 내에서 PDF 문서의 크기와 품질을 관리하는 데 매우 유용한 기능을 지원합니다. 라이브러리는 PDF 최적화 기술을 사용하여 가능한 최고 품질을 유지하면서 파일 크기를 줄입니다. 압축 및 다운샘플링을 적용하면 결과 OCR 지원 PDF 파일을 효율적으로 저장하고 빠르게 로드할 수 있습니다. OCRmyPDF는 요구 사항에 따라 사용자 정의할 수 있는 여러 가지 최적화 옵션을 제공합니다. 일반적으로 사용되는 일부 옵션에는 임시 파일 제거, JBIG2 압축 적용, OCR 추가 건너뛰기, 파일 크기 감소를 최대화하기 위해 무손실 압축 비활성화 등이 포함됩니다.

Python API를 사용하여 PDF 파일을 최적화하는 방법은 무엇입니까?

import subprocess

def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
    try:
        # OCRmyPDF command with optimization options
        command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
        
        # Execute the OCRmyPDF command
        subprocess.run(command, check=True)
        
        print("PDF optimization complete!")
    except subprocess.CalledProcessError as e:
        print(f"OCRmyPDF error: {e}")
        
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'

optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)

Python API를 통한 PDF 텍스트 레이어 통합

오픈 소스 라이브러리인 OCRmyPDF는 텍스트 레이어를 PDF 파일에 통합하여 문서 접근성과 검색 가능성을 향상시키는 강력한 솔루션을 제공합니다. 라이브러리는 OCR로 생성된 텍스트가 포함된 텍스트 레이어를 PDF 문서에 직접 추가하여 원본 레이아웃을 보존합니다. 이 기능을 사용하면 전체 텍스트 검색, 복사하여 붙여넣기 및 텍스트 추출이 가능합니다. PDF 문서로 작업할 때 파일 내에 텍스트 레이어를 통합하는 것이 매우 유리합니다. 텍스트 레이어에는 인식된 OCR 생성 텍스트가 포함되어 있어 PDF를 검색할 수 있고 텍스트를 쉽게 복사하고 추출할 수 있습니다. 이러한 통합을 통해 원본 문서 레이아웃을 보존하는 동시에 텍스트 기반 작업이 가능해 문서 유용성과 효율성이 향상됩니다.