1. Productos
  2.   OCR
  3.   Python
  4.   PaddleOCR
 
  

API Python de código abierto para integrar capacidades de OCR

Biblioteca Python de código abierto que permite a los desarrolladores de software integrar fácilmente capacidades de reconocimiento óptico de caracteres (OCR) en sus aplicaciones.

PaddleOCR es una poderosa biblioteca de Python de código abierto que permite a los desarrolladores de software integrar fácilmente capacidades de reconocimiento óptico de caracteres (OCR) en sus aplicaciones Python. Está construido sobre PaddlePaddle, una plataforma de aprendizaje profundo de código abierto, y utiliza modelos de aprendizaje profundo de última generación para lograr una alta precisión y rendimiento. PaddleOCR simplifica el proceso de OCR al proporcionar una API de alto nivel que abstrae muchos de los detalles de bajo nivel, lo que facilita a los desarrolladores agregar capacidades de OCR a sus aplicaciones.

PaddleOCR ha brindado soporte completo para una amplia gama de idiomas y escrituras. Actualmente admite más de 80 idiomas diferentes, incluidos árabe, chino, inglés, francés, alemán, japonés, coreano, ruso, español y muchos otros. Esto la convierte en una herramienta valiosa para los desarrolladores que necesitan trabajar con contenido multilingüe. Además de sus potentes capacidades de OCR, la biblioteca también incluye una serie de utilidades útiles para trabajar con imágenes y texto. Por ejemplo, incluye herramientas para el preprocesamiento de imágenes, como enderezamiento y binarización, así como herramientas de posprocesamiento para mejorar la precisión de la salida de OCR.

PaddleOCR proporciona varios modelos de OCR diferentes, cada uno de ellos optimizado para diferentes casos de uso. Por ejemplo, el modelo de Detección de Texto se usa para localizar y extraer regiones de texto de una imagen, mientras que el modelo de Reconocimiento de Texto se usa para reconocer el texto real dentro de esas regiones. También hay una función Model Ensemble que permite a los desarrolladores combinar múltiples modelos para lograr una precisión aún mayor. En general, PaddleOCR es una biblioteca potente y fácil de usar para agregar capacidades de OCR a sus aplicaciones Python. Su compatibilidad con una amplia gama de lenguajes y secuencias de comandos, así como sus modelos personalizables y herramientas de posprocesamiento, la convierten en una herramienta valiosa para los desarrolladores que trabajan con OCR.

Previous Next

Comenzando con PaddleOCR

La forma recomendada de instalar PaddleOCR es utilizando pip. Utilice el siguiente comando para una instalación sin problemas

Instalar PaddleOCR mediante pip

 

Install PaddleOCR via pip

 pip install paddleocr 

También puedes instalarlo manualmente; descargue los archivos de la última versión directamente desde el repositorio GitHub.

Reconocimiento de texto de imagen a través de la API PaddleOCR

El reconocimiento de texto de imágenes es el proceso de extraer texto de imágenes. Es una técnica útil para diversas aplicaciones como escaneo de documentos, digitalización y OCR (reconocimiento óptico de caracteres). La API de OCR (reconocimiento óptico de caracteres) de código abierto proporciona un conjunto de modelos de OCR de última generación que pueden reconocer texto de varias imágenes, incluidos documentos escaneados, capturas de pantalla y fotografías. La biblioteca admite varias funciones importantes relacionadas con el reconocimiento de texto de imágenes, como cargar imágenes, inicializar un modelo de OCR, identificar la región de texto en la imagen, reconocer texto de la imagen, extraer texto del resultado y muchas más. El siguiente ejemplo muestra cómo reconocer texto de una imagen dentro de aplicaciones Python.

Realizar reconocimiento de texto de imagen dentro de proyectos Python

import paddleocr
ocr = paddleocr.OCR()

# load an image using the PIL
from PIL import Image

image = Image.open('example.jpg')
result = ocr.ocr(image)

# access the recognized text

for line in result:
    print(line[1][0])
    print(line[1][1])

Reconocimiento de documentos OCR utilizando la API de Python

El reconocimiento de documentos ha sido una de las áreas de investigación destacadas del OCR. Los documentos se utilizan casi todos los días en nuestra vida. Cuando los desarrolladores de software aplican OCR a un documento, este puede recuperar información importante, recuperar campos de formulario, analizar el diseño, almacenarlo digitalmente y también leer manuscritos antiguos. La biblioteca PaddleOCR de código abierto permite a los desarrolladores de software cargar varios tipos de documentos, realizar operaciones de OCR y reconocer y extraer texto utilizando código Python. El reconocimiento de texto es muy preciso y la biblioteca puede detectar fácilmente caracteres especiales y espacios con precisión.

Realizar reconocimiento de documentos OCRF utilizando la API de Python

img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)

//Displaying the output.

Soporte de reconocimiento de tablas dentro de aplicaciones Python

La biblioteca PaddleOCR de código abierto permite a los desarrolladores de software reconocer los datos de las tablas dentro de sus aplicaciones Python. El reconocimiento de tablas contiene principalmente tres modelos: detección de texto de una sola línea-DB, reconocimiento de texto de una sola línea-CRNN y estructura de tabla, así como predicción de coordenadas de celda-SLANet. El siguiente ejemplo muestra cómo reconocer la imagen que contiene la tabla. El siguiente ejemplo muestra cómo utilizar el método draw_ocr que toma la imagen, los cuadros delimitadores, los textos, las partituras y la ruta al archivo de fuente. Devuelve una imagen con los cuadros delimitadores y el texto detectado. Puedes mostrar la imagen usando el método show.

Cargar una imagen y detectar texto en su interior mediante la API de Python

from paddleocr import PaddleOCR, draw_ocr

# Load the image that contains the table.

# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
    img = f.read()

# Create an instance of the PaddleOCR object
ocr = PaddleOCR()


# Draw the bounding boxes around the detected table cells

boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()

 Español