OCR 기능을 통합하는 오픈 소스 Python API

소프트웨어 개발자가 OCR(광학 문자 인식) 기능을 애플리케이션에 쉽게 통합할 수 있게 해주는 오픈 소스 Python 라이브러리입니다.

PaddleOCR은 소프트웨어 개발자가 광학 문자 인식(OCR) 기능을 Python 애플리케이션에 쉽게 통합할 수 있게 해주는 강력한 오픈 소스 Python 라이브러리입니다. 오픈소스 딥러닝 플랫폼인 PaddlePaddle을 기반으로 구축되었으며, 최첨단 딥러닝 모델을 사용하여 높은 정확도와 성능을 달성합니다. PaddleOCR은 많은 낮은 수준의 세부 정보를 추상화하는 높은 수준의 API를 제공하여 OCR 프로세스를 단순화하므로 개발자가 애플리케이션에 OCR 기능을 쉽게 추가할 수 있습니다.

PaddleOCR은 광범위한 언어와 스크립트를 완벽하게 지원합니다. 현재 아랍어, 중국어, 영어, 프랑스어, 독일어, 일본어, 한국어, 러시아어, 스페인어 등을 포함한 80개 이상의 언어를 지원합니다. 이는 다국어 콘텐츠 작업이 필요한 개발자에게 귀중한 도구입니다. 강력한 OCR 기능 외에도 라이브러리에는 이미지 및 텍스트 작업에 유용한 여러 유틸리티가 포함되어 있습니다. 예를 들어 기울기 조정 및 이진화와 같은 이미지 전처리 도구는 물론 OCR 출력의 정확성을 향상시키기 위한 후처리 도구도 포함되어 있습니다.

PaddleOCR은 각각 다른 사용 사례에 최적화된 여러 가지 OCR 모델을 제공합니다. 예를 들어, 텍스트 감지 모델은 이미지에서 텍스트 영역을 찾고 추출하는 데 사용되는 반면, 텍스트 인식 모델은 해당 영역 내의 실제 텍스트를 인식하는 데 사용됩니다. 개발자가 여러 모델을 결합하여 더 높은 정확도를 달성할 수 있는 Model Ensemble 기능도 있습니다. 전반적으로 PaddleOCR은 Python 애플리케이션에 OCR 기능을 추가하기 위한 강력하고 사용하기 쉬운 라이브러리입니다. 광범위한 언어와 스크립트에 대한 지원은 물론 사용자 정의 가능한 모델과 후처리 도구를 통해 OCR을 사용하는 개발자에게 유용한 도구가 됩니다.

한눈에 보기

PaddleOCR 기능 개요

기능 개요

OCR 수행
OCR 기능 추가
이미지 텍스트 인식
텍스트 이미지 변환
인식된 글꼴 텍스트
PDF 검색
기타 언어
OCR 앱 만들기
브라우저에 저장
텍스트 추출
멀티스레딩 지원

PaddleOCR

PaddleOCR은 아래 나열된 널리 사용되는 이미지 파일 형식을 지원합니다.

리더

PNG, JPEG, BMP, TIFF, TGA, DICOM

작가

PNG, JPEG, BMP, TIFF

PaddleOCR

플랫폼 독립성

PaddleOCR은 .NET Framework 4.8 및 Python 2.7 이상에서 작동할 수 있습니다.

Python 2.7 이상.

PaddleOCR

PaddleOCR 시작하기

PaddleOCR을 설치하는 데 권장되는 방법은 pip를 사용하는 것입니다. 원활한 설치를 위해 다음 명령어를 사용해주세요

pip를 통해 PaddleOCR 설치

 
Install PaddleOCR via pip
 pip install paddleocr 
수동으로 설치할 수도 있습니다. GitHub 저장소에서 직접 최신 릴리스 파일을 다운로드하세요.

`PaddleOCR API를 통한 이미지 텍스트 인식`

이미지 텍스트 인식은 이미지에서 텍스트를 추출하는 프로세스입니다. 문서 스캐닝, 디지털화, OCR(광학 문자 인식) 등 다양한 응용 분야에 유용한 기술입니다. 오픈 소스 OCR(광학 문자 인식) API는 스캔한 문서, 스크린샷, 사진을 비롯한 다양한 이미지에서 텍스트를 인식할 수 있는 최첨단 OCR 모델 세트를 제공합니다. 라이브러리는 이미지 로드, OCR 모델 초기화, 이미지의 텍스트 영역 식별, 이미지에서 텍스트 인식, 결과에서 텍스트 추출 등과 같은 이미지 텍스트 인식과 관련된 몇 가지 중요한 기능을 지원합니다. 다음 예제에서는 Python 애플리케이션 내부의 이미지에서 텍스트를 인식하는 방법을 보여줍니다.

`Python 프로젝트 내에서 이미지 텍스트 인식 수행`

import paddleocr
ocr = paddleocr.OCR()

# load an image using the PIL
from PIL import Image

image = Image.open('example.jpg')
result = ocr.ocr(image)

# access the recognized text

for line in result:
    print(line[1][0])
    print(line[1][1])

`Python API를 사용한 OCR 문서 인식`

문서 인식은 OCR의 주요 연구 분야 중 하나입니다. 문서는 우리 생활에서 거의 매일 사용됩니다. 소프트웨어 개발자가 문서에 OCR을 적용하면 중요한 정보를 검색하고, 양식 필드를 검색하고, 레이아웃을 분석하고, 디지털로 저장하고, 오래된 원고를 읽을 수도 있습니다. 오픈 소스 PaddleOCR 라이브러리를 사용하면 소프트웨어 개발자는 다양한 유형의 문서를 로드하고, OCR 작업을 수행하고, Python 코드를 사용하여 문서에서 텍스트를 인식하고 추출할 수 있습니다. 텍스트 인식은 매우 정확하며 라이브러리는 특수 문자와 공백을 쉽게 정확하게 감지할 수 있습니다.

`Python API를 사용하여 OCR 문서 인식F 수행`

img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)

//Displaying the output.

`Python 앱 내 테이블 인식 지원`

오픈 소스 PaddleOCR 라이브러리를 사용하면 소프트웨어 개발자가 Python 애플리케이션 내에서 테이블의 데이터를 인식할 수 있습니다. 테이블 인식에는 주로 한 줄 텍스트 감지-DB, 한 줄 텍스트 인식-CRNN 및 테이블 구조와 셀 좌표 예측-SLANet의 세 가지 모델이 포함됩니다. 다음 예에서는 테이블이 포함된 이미지를 인식하는 방법을 보여줍니다. 다음 예제에서는 이미지, 경계 상자, 텍스트, 점수 및 글꼴 파일 경로를 가져오는 draw_ocr 메서드를 사용하는 방법을 보여줍니다. 경계 상자와 감지된 텍스트가 포함된 이미지를 반환합니다. show 메소드를 사용하여 이미지를 표시할 수 있습니다.

`Python API를 통해 이미지 로드 및 내부 텍스트 감지`

from paddleocr import PaddleOCR, draw_ocr

# Load the image that contains the table.

# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
    img = f.read()

# Create an instance of the PaddleOCR object
ocr = PaddleOCR()


# Draw the bounding boxes around the detected table cells

boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()