Biblioteca JavaScript Gratuita para Extrair Texto de Imagens e Formulários Escaneados

Biblioteca JavaScript de Reconhecimento Óptico de Caracteres (OCR) de Código Aberto para Extrair Texto de Imagens e Documentos Escaneados em Preto-e-Branco com Suporte a Pré-Processamento de Imagens e Modelos em Aplicações Web ou Node.js.

No mundo digital moderno, a tecnologia de reconhecimento óptico de caracteres (OCR) desempenha um papel crítico ao transformar imagens escaneadas, anotações manuscritas ou documentos impressos em dados editáveis e pesquisáveis. Para desenvolvedores JavaScript que buscam uma solução leve e de código aberto, o Guten OCR oferece uma escolha atraente. Este mecanismo OCR baseado em JavaScript foi projetado com simplicidade em mente, tornando‑o ideal para incorporar recursos de OCR diretamente em aplicações baseadas em navegador ou Node.js. Existem várias funcionalidades importantes na biblioteca, como reconhecimento de caracteres via modelos, limiarização e binarização de imagens, segmentação de caracteres, correspondência de modelos e montagem de texto, suporte a código modular e assim por diante. Ele foca no reconhecimento de texto impresso de documentos escaneados em preto e branco e é mais adequado para texto bem formatado, como livros ou formulários.

Guten OCR é um mecanismo OCR JavaScript de código aberto criado por Gutenye. Ao contrário de ferramentas OCR pesadas que exigem dependências externas ou configuração extensiva, o Guten OCR é escrito inteiramente em JavaScript, o que significa que pode ser executado em um navegador web ou no servidor com Node.js. A biblioteca usa técnicas básicas de processamento de imagem para segmentar caracteres e identificá‑los usando um sistema de reconhecimento de padrões de caracteres. Embora ainda não concorra com motores OCR comerciais como o Tesseract em termos de suporte multilíngue ou a manuscritos, sua simplicidade e capacidade de hackeamento o tornam uma opção fantástica para projetos educacionais, provas de conceito ou recursos OCR incorporados em aplicativos web personalizados. Diferente do Tesseract ou de outros motores maiores, o Guten OCR é intencionalmente leve e focado — tornando‑o um excelente ponto de partida para quem deseja entender como o OCR funciona nos bastidores.

Visão Geral

Uma visão geral dos recursos do Guten OCR.

Visão Geral dos Recursos

Extrair Texto de Imagens
Aplicar OCR em Imagens
Reconhecer texto em imagens
Converter imagens de texto
Texto de Fonte Reconhecido
Pré-Processamento de Imagem
Usar Modelos para OCR
Criar aplicativos OCR
Salvar no navegador
Extrair Texto
Suporte a Multithreading

Guten OCR

Guten OCR suporta os formatos de imagem populares listados abaixo.

Leitor

PNG, JPEG, BMP, TIFF, TGA, DICOM

Gravador

PNG, JPEG, BMP, TIFF

Guten OCR

Independência de Plataforma

Guten OCR pode funcionar com qualquer linguagem de programação baseada em Java

Tempo de execução Java

Guten OCR

Começando com Guten OCR

A maneira recomendada de instalar o Guten OCR é usando Brew. Por favor, use o comando a seguir para uma instalação tranquila

Instalar Guten OCR via Brew

 brew install git-lfs

Instalar Guten OCR via GitHub

 git clone git@github.com:gutenye/ocr.git

Você também pode instalá‑lo manualmente; baixe os arquivos da versão mais recente diretamente do GitHub repositório.

Pré-Processamento de Imagem Antes das Operações de OCR

A biblioteca de código aberto Guten OCR é escrita inteiramente em JavaScript, tornando‑a compatível tanto com ambientes de navegador quanto com Node.js. Ela inclui funções internas de pré‑processamento de imagem para melhorar a precisão do reconhecimento. Suporta binarização de imagem (conversão para preto e branco), redução de ruído, correção de inclinação e muito mais. O exemplo a seguir mostra como desenvolvedores podem aplicar múltiplas etapas de pré‑processamento antes de executar a operação OCR em imagens.

Como Aplicar Pré‑Processamento de Imagem antes da Operação OCR via Biblioteca JavaScript?

const { preprocess } = require('guten-ocr');

// Apply multiple preprocessing steps
const processedImage = preprocess(imageData, [
  'grayscale',    // Convert to grayscale
  'binarize',     // Convert to black and white
  'deskew',       // Correct skew
  'denoise'       // Reduce noise
]);

// Then perform OCR on the processed image
ocr.recognize(processedImage).then(/* ... */);

Reconhecimento de Caracteres via Modelos

A biblioteca JavaScript Guten OCR oferece suporte completo para executar operações OCR usando modelos dentro de aplicações JavaScript. No coração do Guten OCR está um sistema de correspondência de modelos. Em vez de treinar um modelo de aprendizado de máquina, ele usa padrões de caracteres pré‑definidos. Isso torna o sistema mais rápido e mais fácil de entender, porém mais sensível à consistência de fonte e layout. Para realizar essa tarefa, a biblioteca renderiza cada caractere (A–Z, a–z, 0–9, etc.) em um canvas e então a matriz binária de cada caractere torna‑se um modelo de referência. Ao analisar uma imagem, a biblioteca compara os segmentos da imagem contra esses modelos para encontrar a melhor correspondência. Ela faz isso usando uma combinação de varredura de linhas vertical e horizontal para localizar caixas delimitadoras.

Segmentação de Caracteres via Biblioteca OCR

A biblioteca JavaScript de código aberto Guten OCR permite que desenvolvedores de software realizem segmentação de caracteres com facilidade. Uma vez que a imagem é binarizada, o próximo passo é segmentar caracteres individuais. Guten OCR escaneia linhas e colunas para detectar regiões com pixels pretos densos, separando‑as em possíveis caracteres. O exemplo a seguir demonstra como desenvolvedores podem realizar segmentação de caracteres usando a biblioteca OCR JavaScript.

Como Realizar Segmentação de Caracteres usando Biblioteca JavaScript?

const segment = require('guten-ocr/segment');
const boxes = segment(binarized); // returns array of [x, y, width, height]