1. Produtos
  2.   OCR
  3.   Node.js
  4.   Node-Tesseract-OCR
 
  

API Node.js gratuita para adicionar recursos de OCR a projetos JS.

Biblioteca OCR Node.js de Código Aberto que permite que programadores reconheçam & extraiam texto de vários formatos de arquivo, incluindo Imagens (JPEG, PNG), PDFs e Documentos gratuitamente em múltiplos idiomas.

O que é Node-Tesseract-OCR?

Na era digital atual, extrair texto de imagens e documentos tornou‑se uma tarefa crucial em diversas indústrias, incluindo gerenciamento de documentos, processamento de dados e inteligência artificial. A tecnologia de Reconhecimento Óptico de Caracteres (OCR) possibilitou a conversão de documentos escaneados, imagens e PDFs em formatos de texto editáveis. Node-Tesseract-OCR é uma API de código aberto que incorpora o poder do mecanismo Tesseract OCR para fornecer uma forma contínua e eficiente de executar tarefas de OCR em aplicações Node.js.

Node-Tesseract-OCR é um wrapper Node.js para o mecanismo Tesseract OCR, permitindo que desenvolvedores de software utilizem os poderosos recursos de reconhecimento de texto do Tesseract dentro de um ambiente Node.js. A API é mantida neste repositório GitHub e oferece uma variedade de funcionalidades que a tornam adequada para diversos casos de uso, desde extração simples de texto até tarefas mais complexas de processamento de documentos. Os desenvolvedores podem extrair texto de imagens e documentos em múltiplos idiomas, tornando‑a uma ferramenta versátil para várias aplicações.

A API Node-Tesseract-OCR fornece recursos avançados de processamento de imagem, incluindo filtragem, redimensionamento e recorte, para garantir que o texto extraído seja preciso e confiável. Ela suporta mais de 100 idiomas, tornando‑a uma solução versátil para tarefas de OCR em ambientes diversos. Os desenvolvedores podem extrair texto de imagens, PDFs e documentos, retornando o texto extraído em vários formatos, como JSON, XML e texto simples. Foi projetada para ser leve, flexível e fácil de usar, sendo uma escolha ideal para quem deseja adicionar recursos de OCR aos seus projetos. Com seus recursos avançados de processamento de imagem, suporte a idiomas e mecanismos de tratamento de erros, é uma escolha ideal para desenvolvedores que desejam incorporar OCR em suas aplicações.

Previous Next

Começando com Node-Tesseract-OCR

A maneira recomendada de instalar o Node-Tesseract-OCR é usando npm. Por favor, use o comando a seguir para uma instalação tranquila

Instalar Node-Tesseract-OCR via npm

npm install node-tesseract-ocr 

Você também pode instalá-lo manualmente; baixe os arquivos da versão mais recente diretamente do repositório do GitHub.

Extração de Texto de Imagens na API Node.js

A biblioteca de código aberto Node-Tesseract-OCR facilita para desenvolvedores de software a criação de aplicações que extraem automaticamente texto de imagens dentro de aplicações Node.js. Ela suporta extração de texto de documentos escaneados, PDFs, fotos tiradas com câmera ou fotos de recibos. Isso pode ser útil para criar arquivos pesquisáveis, automatizar a entrada de dados ou processar grandes volumes de documentos em setores como finanças e saúde. Aqui está um exemplo simples que mostra como extrair texto de imagens programaticamente dentro de aplicações Node.js.

Como extrair texto de imagens dentro do ambiente Node.js?

const tesseract = require("node-tesseract-ocr");

tesseract.recognize("path/to/image.jpg")
  .then(text => {
    console.log("Recognized Text:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });

Pré‑processamento de Imagem Aprimorado no Node.js

Pré‑processar imagens antes de aplicar OCR pode melhorar significativamente a precisão do reconhecimento de texto. A biblioteca de código aberto Node-Tesseract-OCR permite técnicas básicas de pré‑processamento, como redimensionamento, binarização e correção de inclinação. Essas etapas podem ser implementadas usando bibliotecas Node.js adicionais como sharp ou jimp em conjunto com o Node-Tesseract-OCR. O exemplo a seguir mostra como desenvolvedores utilizam etapas de pré‑processamento para melhorar o reconhecimento, especialmente com imagens de baixa qualidade.

Como aplicar etapas de pré‑processamento para melhorar o reconhecimento via API Node.js?

const sharp = require("sharp");
const tesseract = require("node-tesseract-ocr");

sharp("path/to/input.jpg")
  .resize(800, 600) // Resize the image
  .greyscale() // Convert to greyscale
  .toBuffer()
  .then(data => {
    return tesseract.recognize(data, { lang: "eng" });
  })
  .then(text => {
    console.log("Preprocessed Image Text:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });

Texto Reconhecido em Múltiplos Idiomas

Um dos recursos de destaque do Node-Tesseract-OCR é seu amplo suporte a múltiplos idiomas. A biblioteca Tesseract OCR suporta mais de 100 idiomas, tornando‑a uma escolha ideal para aplicações que precisam processar documentos em várias línguas. Os desenvolvedores podem especificar o(s) idioma(s) que desejam que o Tesseract use, melhorando a precisão do reconhecimento para textos não‑inglês. Aqui está um exemplo que mostra como desenvolvedores podem reconhecer texto em francês dentro de aplicações Node.js?

Como reconhecer texto de imagem em francês via API JavaScript?

const config = {
  lang: "fra", // French language support
  oem: 1,
  psm: 3
};

tesseract.recognize("path/to/french-text-image.jpg", config)
  .then(text => {
    console.log("Recognized Text in French:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });

 Português