API Python с открытым исходным кодом для интеграции возможностей оптического распознавания символов
Библиотека Python с открытым исходным кодом, которая позволяет разработчикам программного обеспечения легко интегрировать возможности оптического распознавания символов (OCR) в свои приложения.
PaddleOCR — это мощная библиотека Python с открытым исходным кодом, которая позволяет разработчикам программного обеспечения легко интегрировать возможности оптического распознавания символов (OCR) в свои приложения Python. Он построен на базе PaddlePaddle, платформы глубокого обучения с открытым исходным кодом, и использует самые современные модели глубокого обучения для достижения высокой точности и производительности. PaddleOCR упрощает процесс распознавания, предоставляя высокоуровневый API, который абстрагирует многие низкоуровневые детали, что позволяет разработчикам легко добавлять возможности распознавания в свои приложения.
PaddleOCR обеспечивает полную поддержку широкого спектра языков и алфавитов. В настоящее время он поддерживает более 80 различных языков, включая арабский, китайский, английский, французский, немецкий, японский, корейский, русский, испанский и многие другие. Это делает его ценным инструментом для разработчиков, которым необходимо работать с многоязычным контентом. Помимо мощных возможностей оптического распознавания символов, библиотека также включает в себя ряд полезных утилит для работы с изображениями и текстом. Например, он включает в себя инструменты предварительной обработки изображений, такие как исправление перекоса и бинаризация, а также инструменты постобработки для повышения точности результатов оптического распознавания символов.
PaddleOCR предоставляет несколько различных моделей оптического распознавания символов, каждая из которых оптимизирована для разных случаев использования. Например, модель распознавания текста используется для поиска и извлечения текстовых областей из изображения, а модель распознавания текста используется для распознавания фактического текста внутри этих областей. Существует также функция ансамбля моделей, которая позволяет разработчикам комбинировать несколько моделей для достижения еще большей точности. В целом, PaddleOCR — это мощная и простая в использовании библиотека для добавления возможностей оптического распознавания символов в ваши приложения Python. Поддержка широкого спектра языков и скриптов, а также настраиваемые модели и инструменты постобработки делают его ценным инструментом для разработчиков, работающих с OCR.
Начало работы с PaddleOCR
Рекомендуемый способ установки PaddleOCR — использование pip. Пожалуйста, используйте следующую команду для беспрепятственной установки
Установить PaddleOCR через pip
Install PaddleOCR via pip
pip install paddleocr
Вы также можете установить его вручную; загрузите файлы последней версии непосредственно из репозитория GitHub.
Распознавание текста изображения с помощью PaddleOCR API
Распознавание текста на изображениях – это процесс извлечения текста из изображений. Это полезный метод для различных приложений, таких как сканирование документов, оцифровка и OCR (оптическое распознавание символов). API OCR (оптическое распознавание символов) с открытым исходным кодом предоставляет набор современных моделей OCR, которые могут распознавать текст из различных изображений, включая отсканированные документы, снимки экрана и фотографии. Библиотека поддерживает несколько важных функций, связанных с распознаванием текста на изображениях, таких как загрузка изображений, инициализация модели OCR, определение текстовой области на изображении, распознавание текста на изображении, извлечение текста из результата и многое другое. В следующем примере показано, как распознавать текст на изображении внутри приложений Python.
Распознавание текста изображения внутри проектов Python
import paddleocr
ocr = paddleocr.OCR()
# load an image using the PIL
from PIL import Image
image = Image.open('example.jpg')
result = ocr.ocr(image)
# access the recognized text
for line in result:
print(line[1][0])
print(line[1][1])
Распознавание документов OCR с использованием Python API
Распознавание документов было одной из важных областей исследований OCR. Документы используются в нашей жизни практически каждый день. Когда разработчики программного обеспечения применяют распознавание текста к документу, оно может извлекать важную информацию, поля форм, анализировать макет, хранить в цифровом виде, а также читать старые рукописи. Библиотека PaddleOCR с открытым исходным кодом позволяет разработчикам программного обеспечения загружать различные типы документов, выполнять операции оптического распознавания символов, а также распознавать и извлекать из них текст с помощью кода Python. Распознавание текста очень точное, и библиотека легко распознает специальные символы и пробелы.
sВыполнение распознавания документов OCRF с использованием Python API
img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)
//Displaying the output.
Поддержка распознавания таблиц в приложениях Python
Библиотека PaddleOCR с открытым исходным кодом позволяет разработчикам программного обеспечения распознавать данные таблиц внутри своих приложений Python. Распознавание таблиц в основном содержит три модели: обнаружение однострочного текста (DB), распознавание однострочного текста (CRNN) и структуру таблицы, а также прогнозирование координат ячеек (SLANet). В следующем примере показано, как распознать изображение, содержащее таблицу. В следующем примере показано, как использовать метод draw_ocr, который принимает изображение, ограничивающие рамки, текст, оценки и путь к файлу шрифта. Он возвращает изображение с ограничивающими рамками и обнаруженным текстом. Вы можете отобразить изображение, используя метод show.
sЗагрузка изображения и обнаружение внутри него текста с помощью Python API
from paddleocr import PaddleOCR, draw_ocr
# Load the image that contains the table.
# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
img = f.read()
# Create an instance of the PaddleOCR object
ocr = PaddleOCR()
# Draw the bounding boxes around the detected table cells
boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()