1. Товары
  2.   OCR
  3.   Python
  4.   PaddleOCR
 
  

API Python с открытым исходным кодом для интеграции возможностей оптического распознавания символов

Библиотека Python с открытым исходным кодом, которая позволяет разработчикам программного обеспечения легко интегрировать возможности оптического распознавания символов (OCR) в свои приложения.

PaddleOCR — это мощная библиотека Python с открытым исходным кодом, которая позволяет разработчикам программного обеспечения легко интегрировать возможности оптического распознавания символов (OCR) в свои приложения Python. Он построен на базе PaddlePaddle, платформы глубокого обучения с открытым исходным кодом, и использует самые современные модели глубокого обучения для достижения высокой точности и производительности. PaddleOCR упрощает процесс распознавания, предоставляя высокоуровневый API, который абстрагирует многие низкоуровневые детали, что позволяет разработчикам легко добавлять возможности распознавания в свои приложения.

PaddleOCR обеспечивает полную поддержку широкого спектра языков и алфавитов. В настоящее время он поддерживает более 80 различных языков, включая арабский, китайский, английский, французский, немецкий, японский, корейский, русский, испанский и многие другие. Это делает его ценным инструментом для разработчиков, которым необходимо работать с многоязычным контентом. Помимо мощных возможностей оптического распознавания символов, библиотека также включает в себя ряд полезных утилит для работы с изображениями и текстом. Например, он включает в себя инструменты предварительной обработки изображений, такие как исправление перекоса и бинаризация, а также инструменты постобработки для повышения точности результатов оптического распознавания символов.

PaddleOCR предоставляет несколько различных моделей оптического распознавания символов, каждая из которых оптимизирована для разных случаев использования. Например, модель распознавания текста используется для поиска и извлечения текстовых областей из изображения, а модель распознавания текста используется для распознавания фактического текста внутри этих областей. Существует также функция ансамбля моделей, которая позволяет разработчикам комбинировать несколько моделей для достижения еще большей точности. В целом, PaddleOCR — это мощная и простая в использовании библиотека для добавления возможностей оптического распознавания символов в ваши приложения Python. Поддержка широкого спектра языков и скриптов, а также настраиваемые модели и инструменты постобработки делают его ценным инструментом для разработчиков, работающих с OCR.

Previous Next

Начало работы с PaddleOCR

Рекомендуемый способ установки PaddleOCR — использование pip. Пожалуйста, используйте следующую команду для беспрепятственной установки

Установить PaddleOCR через pip

 

Install PaddleOCR via pip

 pip install paddleocr 

Вы также можете установить его вручную; загрузите файлы последней версии непосредственно из репозитория GitHub.

Распознавание текста изображения с помощью PaddleOCR API

Распознавание текста на изображениях – это процесс извлечения текста из изображений. Это полезный метод для различных приложений, таких как сканирование документов, оцифровка и OCR (оптическое распознавание символов). API OCR (оптическое распознавание символов) с открытым исходным кодом предоставляет набор современных моделей OCR, которые могут распознавать текст из различных изображений, включая отсканированные документы, снимки экрана и фотографии. Библиотека поддерживает несколько важных функций, связанных с распознаванием текста на изображениях, таких как загрузка изображений, инициализация модели OCR, определение текстовой области на изображении, распознавание текста на изображении, извлечение текста из результата и многое другое. В следующем примере показано, как распознавать текст на изображении внутри приложений Python.

Распознавание текста изображения внутри проектов Python

import paddleocr
ocr = paddleocr.OCR()

# load an image using the PIL
from PIL import Image

image = Image.open('example.jpg')
result = ocr.ocr(image)

# access the recognized text

for line in result:
    print(line[1][0])
    print(line[1][1])

Распознавание документов OCR с использованием Python API

Распознавание документов было одной из важных областей исследований OCR. Документы используются в нашей жизни практически каждый день. Когда разработчики программного обеспечения применяют распознавание текста к документу, оно может извлекать важную информацию, поля форм, анализировать макет, хранить в цифровом виде, а также читать старые рукописи. Библиотека PaddleOCR с открытым исходным кодом позволяет разработчикам программного обеспечения загружать различные типы документов, выполнять операции оптического распознавания символов, а также распознавать и извлекать из них текст с помощью кода Python. Распознавание текста очень точное, и библиотека легко распознает специальные символы и пробелы.

s

Выполнение распознавания документов OCRF с использованием Python API

img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)

//Displaying the output.

Поддержка распознавания таблиц в приложениях Python

Библиотека PaddleOCR с открытым исходным кодом позволяет разработчикам программного обеспечения распознавать данные таблиц внутри своих приложений Python. Распознавание таблиц в основном содержит три модели: обнаружение однострочного текста (DB), распознавание однострочного текста (CRNN) и структуру таблицы, а также прогнозирование координат ячеек (SLANet). В следующем примере показано, как распознать изображение, содержащее таблицу. В следующем примере показано, как использовать метод draw_ocr, который принимает изображение, ограничивающие рамки, текст, оценки и путь к файлу шрифта. Он возвращает изображение с ограничивающими рамками и обнаруженным текстом. Вы можете отобразить изображение, используя метод show.

s

Загрузка изображения и обнаружение внутри него текста с помощью Python API

from paddleocr import PaddleOCR, draw_ocr

# Load the image that contains the table.

# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
    img = f.read()

# Create an instance of the PaddleOCR object
ocr = PaddleOCR()


# Draw the bounding boxes around the detected table cells

boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()

 Русский