Open Source Python API to Build Smart OCR Apps

Free Python OCR API to Detect and Recognize Text from Images, Including Natural Scenes, Forms, and Scanned Documents inside Python Apps.

MonkeyOCRとは？

MonkeyOCRは、強力かつ柔軟なソリューションを求めるソフトウェア開発者向けに、ディープラーニング上に構築された高度なエンドツーエンド光学文字認識（OCR）システムです。Yuliang Liuが開発したこのライブラリは、自然シーン、フォーム、スキャンされた文書など多様なソースからテキストを正確に検出・認識できます。そのモジュラーでスケーラブルなアーキテクチャは、最先端のディープラーニング技術と堅牢な推論パイプラインを融合し、実世界のテキスト認識タスクに非常に適しています。実用例としては、請求書のスキャンや身分証明書の読み取り、看板からのテキスト抽出、多言語OCRやPDFからデータへの変換パイプラインの構築などが挙げられます。

最大限の柔軟性を追求して設計されたMonkeyOCRは、商用OCRエンジンに依存しないインテリジェントな文書処理システムの構築をソフトウェアエンジニアに提供します。完全モジュラーOCRパイプライン、シンプルなYAML設定ファイル、効率的なバッチ推論サポートといった高度な機能を備えており、座標情報付きの正確なテキストボックス出力を実現します。検出にはDBNet++、認識にはCRNNといった最新モデルを使用し、設定可能な前処理・後処理フレームワーク内で動作します。このモジュラー設計、最新モデルへの対応、設定の容易さの組み合わせにより、MonkeyOCRはエンタープライズ文書自動化からモバイルベースのシーンテキスト認識まで、実世界の高度なアプリケーション構築に最適です。

概要

MonkeyOCRの機能概要。

Features Overview

OCRアプリを構築する
OCR機能を追加する
画像テキストを認識する
テキスト画像を変換する
フォントテキストを認識する
他の言語
OCRアプリを作成する
ブラウザに保存する
テキストを抽出する
マルチスレッドサポート

MonkeyOCR

MonkeyOCRは以下の一般的な画像ファイル形式をサポートしています。

リーダー

PNG, JPEG, BMP, TIFF, TGA, DICOM

ライター

PNG, JPEG, BMP, TIFF

MonkeyOCR

プラットフォーム独立性

MonkeyOCRはPython 2.7以降で動作します。

Python 2.7 & above.

MonkeyOCR

MonkeyOCRの開始方法

MonkeyOCRをインストールする推奨方法はpipを使用することです。スムーズなインストールのために以下のコマンドを使用してください。

Install MonkeyOCR via pip

 pip install MonkeyOCR

Install MonkeyOCR via GitHub

 git clone https://github.com/Yuliang-Liu/MonkeyOCR.git

You can also install it manually; download the latest release files directly from GitHub repository.

Pythonでレシート画像からテキストを抽出する

オープンソースのMonkeyOCRは、ディープラーニング技術に基づくエンドツーエンドの光学文字認識システムです。文書、ID、レシート、ナンバープレートなどをスキャンするアプリを開発しているソフトウェア開発者は、MonkeyOCRをバックエンドパイプラインに直接組み込むことができます。モジュラー設計により、検出モデルだけを使用したり、認識と組み合わせて画像から構造化テキストを抽出したりできます。以下は、Python APIを使用してレシート画像からテキストを抽出する簡単な例です。

How to Extract Text from a Receipt Image via Python API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")

for line in results:
    print(line['text'])

特定のユースケース向けカスタムOCRパイプライン

オープンソースのMonkeyOCRライブラリの最大の強みは、そのモジュラーアーキテクチャにあります。ソフトウェア開発者は、検出、認識、分類モデルなどのコンポーネントを用途に合わせて組み合わせることができます。例えば、文書スキャンアプリは軽量なDBNet検出モデルとCRNN認識モデルを組み合わせて、速度と精度の両方を最適化できます。

Custom OCR Pipelines via Python API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(
    det_model_path="weights/dbnet.pth",
    rec_model_path="weights/crnn.pth"
)

results = ocr.predict("form_image.jpg")
for item in results:
    print(item["text"], item["box"])

ビジネスソフトウェアとの統合

オープンソースのMonkeyOCRライブラリは、ERPやCRMシステムなどのエンタープライズ文書ワークフローにも組み込むことができます。ソフトウェア開発者は、バックグラウンドでMonkeyOCRを実行し、ユーザーがアップロードしたスキャンPDFや画像ベースの文書をスキャンして、構造化情報を自動的に抽出できます。config.yamlでMonkeyOCRを設定すれば、複数のデプロイ間で一貫性を保つことが可能です。

自動化フォームリーダーの構築

MonkeyOCRのテキスト検出と位置情報（バウンディングボックス）を組み合わせることで、開発者は「氏名」「日付」「金額」などのフィールドを検出し、関連データを抽出するインテリジェントなフォームリーダーを設計できます。これは税務文書、医療フォーム、アンケートなどに最適です。