OCR機能を統合するオープンソースPython API
ソフトウェア開発者が光学式文字認識 (OCR) 機能をアプリケーションに簡単に統合できるようにするオープンソースの Python ライブラリ。
PaddleOCR は、ソフトウェア開発者が光学式文字認識 (OCR) 機能を Python アプリケーションに簡単に統合できるようにする強力なオープンソース Python ライブラリです。 オープンソースの深層学習プラットフォームである PaddlePaddle 上に構築されており、最先端の深層学習モデルを使用して高い精度とパフォーマンスを実現します。 PaddleOCR は、低レベルの詳細の多くを抽象化する高レベル API を提供することで OCR プロセスを簡素化し、開発者がアプリケーションに OCR 機能を簡単に追加できるようにします。
PaddleOCR は、幅広い言語とスクリプトを完全にサポートしています。 現在、アラビア語、中国語、英語、フランス語、ドイツ語、日本語、韓国語、ロシア語、スペイン語などを含む 80 以上の言語をサポートしています。 このため、多言語コンテンツを扱う必要がある開発者にとって貴重なツールになります。 このライブラリには、強力な OCR 機能に加えて、画像やテキストを操作するための便利なユーティリティも多数含まれています。 たとえば、傾き補正や二値化などの画像の前処理ツールや、OCR 出力の精度を向上させる後処理ツールが含まれています。
PaddleOCR は、さまざまなユースケースに合わせて最適化された、いくつかの異なる OCR モデルを提供します。 たとえば、テキスト検出モデルは画像からテキスト領域を特定して抽出するために使用され、テキスト認識モデルはそれらの領域内の実際のテキストを認識するために使用されます。 開発者が複数のモデルを組み合わせてさらに高い精度を達成できるモデル アンサンブル機能もあります。 全体として、PaddleOCR は、Python アプリケーションに OCR 機能を追加するための強力で使いやすいライブラリです。 幅広い言語とスクリプトをサポートしているだけでなく、カスタマイズ可能なモデルや後処理ツールも備えているため、OCR を扱う開発者にとって貴重なツールとなっています。
PaddleOCR の使用を開始する
PaddleOCR をインストールする推奨方法は、pip を使用することです。 スムーズにインストールするには、次のコマンドを使用してください。
pip 経由で PaddleOCR をインストールします
pip 経由で PaddleOCR をインストールします
pip install paddleocr
手動でインストールすることもできます。 最新のリリース ファイルを GitHub リポジトリから直接ダウンロードします。
PaddleOCR API による画像テキスト認識
画像テキスト認識は、画像からテキストを抽出するプロセスです。 文書のスキャン、デジタル化、OCR(光学式文字認識)など、さまざまな用途に役立つ技術です。 オープンソース OCR (光学文字認識) API は、スキャンされた文書、スクリーンショット、写真などのさまざまな画像からテキストを認識できる一連の最先端の OCR モデルを提供します。 このライブラリは、画像の読み込み、OCR モデルの初期化、画像内のテキスト領域の識別、画像からのテキストの認識、結果からのテキストの抽出など、画像テキスト認識に関連するいくつかの重要な機能をサポートしています。 次の例は、Python アプリケーション内で画像からテキストを認識する方法を示しています。
Python プロジェクト内で画像テキスト認識を実行する
import paddleocr
ocr = paddleocr.OCR()
# load an image using the PIL
from PIL import Image
image = Image.open('example.jpg')
result = ocr.ocr(image)
# access the recognized text
for line in result:
print(line[1][0])
print(line[1][1])
Python API を使用した OCR ドキュメント認識
文書認識は、OCR の著名な研究分野の 1 つです。 文書は私たちの生活の中でほぼ毎日使用されます。 ソフトウェア開発者がドキュメントに OCR を適用すると、重要な情報の取得、フォーム フィールドの取得、レイアウトの分析、デジタル保存、および古い原稿の読み取りが可能になります。 オープンソースの PaddleOCR ライブラリを使用すると、ソフトウェア開発者は、Python コードを使用してさまざまな種類のドキュメントをロードし、OCR 操作を実行し、そこからテキストを認識して抽出することができます。 テキスト認識は非常に正確で、ライブラリは特殊文字やスペースを簡単に正確に検出できます。
Python API を使用して OCR ドキュメント認識 F を実行する
img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)
//Displaying the output.
Python アプリ内でのテーブル認識のサポート
オープンソースの PaddleOCR ライブラリを使用すると、ソフトウェア開発者は Python アプリケーション内のテーブルのデータを認識できます。 表認識には主に、単行テキスト検出 - DB、単行テキスト認識 - CRNN、表構造およびセル座標予測 - SLANet の 3 つのモデルが含まれています。 次の例は、表を含む画像を認識する方法を示しています。 次の例は、画像、境界ボックス、テキスト、スコア、フォント ファイルへのパスを取得するdraw_ocr メソッドの使用方法を示しています。 境界ボックスと検出されたテキストを含む画像を返します。 show メソッドを使用して画像を表示できます。
Python API 経由で画像をロードし、画像内のテキストを検出する
from paddleocr import PaddleOCR, draw_ocr
# Load the image that contains the table.
# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
img = f.read()
# Create an instance of the PaddleOCR object
ocr = PaddleOCR()
# Draw the bounding boxes around the detected table cells
boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()