API Python de código aberto para integrar recursos de OCR
Biblioteca Python de código aberto que permite aos desenvolvedores de software integrar facilmente recursos de reconhecimento óptico de caracteres (OCR) em seus aplicativos.
PaddleOCR é uma poderosa biblioteca Python de código aberto que permite aos desenvolvedores de software integrar facilmente recursos de reconhecimento óptico de caracteres (OCR) em seus aplicativos Python. Ele é construído com base no PaddlePaddle, uma plataforma de aprendizado profundo de código aberto, e usa modelos de aprendizado profundo de última geração para alcançar alta precisão e desempenho. O PaddleOCR simplifica o processo de OCR, fornecendo uma API de alto nível que abstrai muitos dos detalhes de baixo nível, facilitando aos desenvolvedores a adição de recursos de OCR aos seus aplicativos.
PaddleOCR fornece suporte completo para uma ampla variedade de linguagens e scripts. Atualmente suporta mais de 80 idiomas diferentes, incluindo árabe, chinês, inglês, francês, alemão, japonês, coreano, russo, espanhol e muitos outros. Isso o torna uma ferramenta valiosa para desenvolvedores que precisam trabalhar com conteúdo multilíngue. Além de seus poderosos recursos de OCR, a biblioteca também inclui vários utilitários úteis para trabalhar com imagens e texto. Por exemplo, inclui ferramentas para pré-processamento de imagens, como alinhamento e binarização, bem como ferramentas de pós-processamento para melhorar a precisão da saída do OCR.
O PaddleOCR oferece vários modelos de OCR diferentes, cada um otimizado para diferentes casos de uso. Por exemplo, o modelo de detecção de texto é usado para localizar e extrair regiões de texto de uma imagem, enquanto o modelo de reconhecimento de texto é usado para reconhecer o texto real nessas regiões. Há também um recurso Model Ensemble que permite aos desenvolvedores combinar vários modelos para obter uma precisão ainda maior. No geral, PaddleOCR é uma biblioteca poderosa e fácil de usar para adicionar recursos de OCR aos seus aplicativos Python. Seu suporte para uma ampla variedade de linguagens e scripts, bem como seus modelos personalizáveis e ferramentas de pós-processamento, fazem dele uma ferramenta valiosa para desenvolvedores que trabalham com OCR.
Introdução ao PaddleOCR
A maneira recomendada de instalar o PaddleOCR é usando pip. Use o seguinte comando para uma instalação tranquila
Instale o PaddleOCR via pip
Instale o PaddleOCR via pip
pip install paddleocr
Você também pode instalá-lo manualmente; baixe os arquivos da versão mais recente diretamente do repositório GitHub.
Reconhecimento de texto de imagem via API PaddleOCR
O reconhecimento de texto de imagem é o processo de extrair texto de imagens. É uma técnica útil para diversas aplicações, como digitalização de documentos, digitalização e OCR (reconhecimento óptico de caracteres). A API de OCR (reconhecimento óptico de caracteres) de código aberto fornece um conjunto de modelos de OCR de última geração que podem reconhecer texto de várias imagens, incluindo documentos digitalizados, capturas de tela e fotografias. A biblioteca oferece suporte a vários recursos importantes relacionados ao reconhecimento de texto de imagem, como carregamento de imagens, inicialização de um modelo de OCR, identificação de região de texto na imagem, reconhecimento de texto da imagem, extração de texto do resultado e muito mais. O exemplo a seguir mostra como reconhecer o texto de uma imagem dentro de aplicativos Python.
Realizar reconhecimento de texto de imagem em projetos Python
import paddleocr
ocr = paddleocr.OCR()
# load an image using the PIL
from PIL import Image
image = Image.open('example.jpg')
result = ocr.ocr(image)
# access the recognized text
for line in result:
print(line[1][0])
print(line[1][1])
Reconhecimento de documentos OCR usando API Python
O reconhecimento de documentos tem sido uma das áreas de pesquisa de destaque para OCR. Os documentos são usados quase todos os dias em nossa vida. Quando os desenvolvedores de software aplicam OCR a um documento, ele pode recuperar informações importantes, recuperar campos de formulário, analisar layout, armazenar digitalmente e também para leitura de manuscritos antigos. A biblioteca PaddleOCR de código aberto permite que desenvolvedores de software carreguem vários tipos de documentos, executem operações de OCR e reconheçam e extraiam texto deles usando código Python. O reconhecimento de texto é muito preciso e a biblioteca pode detectar facilmente caracteres especiais e espaços com precisão.
Execute o reconhecimento de documentos OCRF usando a API Python
img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)
//Displaying the output.
Suporte para reconhecimento de tabelas em aplicativos Python
A biblioteca PaddleOCR de código aberto permite que desenvolvedores de software reconheçam dados de tabelas dentro de seus aplicativos Python. O reconhecimento de tabela contém principalmente três modelos, detecção de texto de linha única-DB, reconhecimento de texto de linha única-CRNN e estrutura de tabela, bem como previsão de coordenadas de célula-SLANet. O exemplo a seguir mostra como reconhecer a imagem que contém a tabela. O exemplo a seguir mostra como usar o método draw_ocr que inclui a imagem, as caixas delimitadoras, os textos, as pontuações e o caminho para o arquivo de fonte. Ele retorna uma imagem com as caixas delimitadoras e o texto detectado. Você pode exibir a imagem usando o método show.
Carregar uma imagem e detectar texto dentro dela por meio da API Python
from paddleocr import PaddleOCR, draw_ocr
# Load the image that contains the table.
# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
img = f.read()
# Create an instance of the PaddleOCR object
ocr = PaddleOCR()
# Draw the bounding boxes around the detected table cells
boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()