텍스트 및 이미지 처리를 위한 OCR용 오픈 소스 .NET API
텍스트가 포함된 이미지(스캔 이미지 및 PDF 파일)를 기계가 읽을 수 있는 텍스트로 변환하는 데 사용되는 오픈 소스 .NET 광학 문자 인식(OCR) API입니다.
Tesseract는 소프트웨어 개발자가 텍스트가 포함된 다양한 유형의 이미지를 Python 애플리케이션 내에서 기계가 읽을 수 있는 텍스트로 변환할 수 있게 해주는 매우 강력한 오픈 소스 광학 문자 인식(OCR) 엔진입니다. 오픈 소스 기술은 소프트웨어 개발자가 애플리케이션 내에서 강력한 도구와 라이브러리에 더 쉽게 액세스하고 통합할 수 있도록 함으로써 애플리케이션을 구축하는 방식에 혁명을 일으켰습니다. tesseract-ocr용 .NET 래퍼이며 문서 스캐닝 및 데이터 추출부터 자동화된 이미지 인식 및 번역에 이르기까지 광범위한 애플리케이션에서 사용할 수 있습니다.
Tesseract는 원래 1980년대 Hewlett-Packard에서 개발되었으며 이후 2005년에 오픈 소스 프로젝트로 출시되었습니다. 이후 유니코드(UTF)를 지원하여 세계에서 가장 널리 사용되는 OCR 엔진 중 하나가 되었습니다. -8), 100개 이상의 언어, 다양한 이미지 형식을 처리하는 능력. API에는 문서 스캔, 문서 디지털화, 문서 검색 가능화, 기계 판독 가능 문서 생성, OCR 성능 최적화 등과 같은 다양한 기능이 있습니다.
Tesseract는 다루기가 매우 쉽고 JPEG, BMP, PSD, PNG, TIFF 등과 같은 다양한 이미지 형식의 디지털 이미지 내 텍스트를 인식하도록 설계되었습니다. 라이브러리는 다양한 유형의 이미지와 텍스트에 대한 OCR 성능을 최적화하는 데 사용할 수 있는 다양한 옵션을 통해 사용자 정의가 가능합니다. 문서 스캐닝 및 디지털화, 데이터 추출, 이미지 인식 및 번역 등 어떤 작업을 하든 Tesseract는 목표를 빠르고 쉽게 달성하는 데 도움이 되는 강력하고 안정적인 솔루션을 제공합니다.
Tesseract 시작하기
Tesseract를 설치하는 권장 방법은 NuGet을 사용하는 것입니다. 원활한 설치를 위해 다음 명령어를 사용하시기 바랍니다.
NuGet을 통해 Tesseract 설치
Install-Package Tesseract
GitHub을 통해 Tesseract 설치
git clone https://github.com/charlesw/tesseract.git
C#을 통해 이미지에서 기본 텍스트 추출
오픈 소스 C# 라이브러리 Tesseract를 사용하면 소프트웨어 개발자가 자신의 .NET 애플리케이션 내부 이미지에서 텍스트를 추출할 수 있습니다. 라이브러리를 사용하면 소프트웨어 개발자가 스캔한 문서나 이미지의 텍스트 콘텐츠를 쉽게 검색하고 추가 처리 또는 분석에 사용할 수 있습니다. 작업을 수행하려면 먼저 개발자가 코드 파일에서 Tesseract 네임스페이스를 가져오고 Tesseract 엔진의 인스턴스를 생성해야 합니다. 다음 예제에서는 이미지에서 기본 텍스트를 추출하여 콘솔에 출력하는 방법을 보여줍니다.
C# API를 통해 이미지에서 기본 텍스트를 추출하는 방법은 무엇입니까?
using Tesseract;
using System.Drawing;
namespace MyNamespace
{
class Program
{
static void Main(string[] args)
{
var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
var image = new Bitmap(@"C:\path\to\your\image.jpg");
var page = engine.Process(image);
var text = page.GetText();
image.Dispose();
page.Dispose();
engine.Dispose();
Console.WriteLine(text);
}
}
}
C# .NET을 통해 이미지를 검색 가능한 PDF로 변환
오픈 소스 C# 라이브러리 Tesseract에는 C# 코드를 사용하여 이미지를 검색 가능한 PDF 문서로 변환하는 데 유용한 몇 가지 기능이 포함되어 있습니다. 또한 라이브러리에는 일반 텍스트, hOCR(HTML), PDF, 보이지 않는 텍스트 전용 PDF, TSV, ALTO 등과 같은 다양한 출력 형식에 대한 지원이 포함되어 있습니다. 더 나은 OCR 결과를 얻으려면 개발자가 Tesseract에 제공할 이미지의 품질을 개선해야 한다는 점을 기억하십시오. 다음 예는 이미지에서 인식된 텍스트를 포함하는 검색 가능한 PDF 문서를 생성하는 방법을 보여줍니다.
C# .NET을 사용하여 이미지를 검색 가능한 PDF로 변환하는 방법
using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
{
using (var img = Pix.LoadFromFile(testImagePath))
{
using (var page = engine.Process(img))
{
var text = page.GetText();
Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());
Console.WriteLine("Text (GetText): \r\n{0}", text);
Console.WriteLine("Text (iterator):");
}
}
}
FORMAT_PLAINTEXT);