用於從圖像中載入和提取文字的高級免費 Ruby 庫

領先的開源 Ruby OCR API 和圖像到文本轉換器，允許軟體開發人員從圖像（掃描圖像和 PDF 文件）加載、識別和提取文本

光學字元辨識 (OCR) 是一項強大的技術，可讓電腦從影像或掃描文件中識別並擷取文字。它有許多應用，從數位化印刷材料到自動化數據輸入過程。在 Ruby 程式語言中，一種流行的 OCR 函式庫是 Ruby-Tesseract-OCR。 Ruby-Tesseract-OCR 是一個 Ruby gem，用作 Tesseract OCR 引擎的包裝器。 Tesseract 是 Google 開發的開源 OCR 引擎，以其準確性和語言支援而聞名。

Ruby-Tesseract-OCR 超越了基本的 OCR 功能，並為高階用例提供了附加功能。例如，軟體開發人員可以指定影像中的興趣區域 (ROI)，以將 OCR 分析限制在特定區域。當處理複雜文件或僅需要從特定部分提取文字時，這特別有用。該程式庫提供了一些附加功能來增強 OCR 功能，例如載入現有圖像、從圖像或掃描文件中提取文字、獲取 HOCR (HTML OCR) 輸出等等。

Ruby-Tesseract-OCR gem 提供了一個易於使用的介面來與 Tesseract 引擎交互，使 Ruby 開發人員能夠輕鬆地將 OCR 功能整合到他們的專案中。無論您需要從發票中提取資訊、數位化印刷材料或自動化資料輸入任務，開源程式庫都提供了可靠且高效的解決方案。立即嘗試一下，釋放 OCR 在您的 Ruby 專案中的潛力。

概覽

Ruby-Tesseract-OCR 功能概述。

特色概述

執行 OCR
新增 OCR 功能
辨識圖像文字
透過 URL 載入圖片
將 PDF 轉換為文字
已辨識的字型文字
搜尋 PDF
其他語言
建立 OCR 應用
儲存到瀏覽器
擷取文字
多執行緒支援

Ruby-Tesseract-OCR

Ruby-Tesseract-OCR 支援下面列出的流行 OCR 檔案格式。

讀者

PNG, JPEG, BMP, TIFF, TGA, DICOM

作家

PNG, JPEG, BMP, TIFF

Ruby-Tesseract-OCR

平台獨立性

Ruby-Tesseract-OCR 只需要 Ruby 運行時。

Ruby 5.1 及更高版本。

Ruby-Tesseract-OCR

Ruby-Tesseract-OCR 入門

安裝 Ruby-Tesseract-OCR 的建議方法是使用 Rubygems。為了順利安裝，請使用以下命令。

透過 Rubygems 安裝 Ruby-Tesseract-OCR

gem install tesseract-ocr

您可以從 Github 儲存庫下載已編譯的共用程式庫。

透過 Ruby 從影像和掃描文件中提取文字

Ruby-Tesseract-OCR 是一個非常強大的開源程式庫，允許軟體開發人員只需幾行 Ruby 程式碼即可從各種類型的圖像中載入和提取文字。該庫可以輕鬆地從圖像、PDF 或掃描文件中提取文字。典型的工作流程包括載入圖像、配置 OCR 參數以及呼叫 OCR 引擎來識別文字。為了成功操作，開發人員需要提供他們想要處理的圖像的路徑，並呼叫 text_for 方法來提取文字。最後，結果將列印到控制台。該程式庫提供了各種用於控制 OCR 行為的 Fconfiguration 選項，例如頁面分段模式、白名單字元等。以下範例展示了軟體開發人員如何在 Ruby 應用程式中載入 JPEG 影像並從中提取文字。

如何使用 Ruby 指令從圖像中提取文字？require 'tesseract'

e = Tesseract::Engine.new {|e|
  e.language  = :eng
  e.blacklist = '|'
}

e.text_for('test/first.png').strip # => 'ABC'

透過 Ruby 從特定影像區域提取文字

開源 Ruby-Tesseract-OCR 程式庫超越了基本的 OCR 功能，並為高階用例提供了附加功能。例如，使用者可以指定影像中的興趣區域 (ROI)，以將 OCR 分析限制在特定區域。當處理複雜文件或使用者只需要從特定部分提取文字時，這特別有用。此外，該程式庫還提供了獲取 HOCR（HTML OCR）輸出的方法，其中不僅包括識別的文本，還包括有關文本元素的佈局和座標的資訊。當您需要更精細的資料或想要對文字結構進行進一步分析時，HOCR 輸出非常有用。

如何透過 Ruby 函式庫對影像執行 hOCR？require 'tesseract'

e = Tesseract::Engine.new {|e|
  e.language  = :eng
  e.blacklist = '|'
}

puts e.hocr_for('test/first.png')

用於從圖像中載入和提取文字的高級免費 Ruby 庫

領先的開源 Ruby OCR API 和圖像到文本轉換器，允許軟體開發人員從圖像（掃描圖像和 PDF 文件）加載、識別和提取文本

概覽

平台獨立性

Ruby-Tesseract-OCR 入門

透過 Rubygems 安裝 Ruby-Tesseract-OCR

透過 Ruby 從影像和掃描文件中提取文字

如何使用 Ruby 指令從圖像中提取文字？
`require 'tesseract' e = Tesseract::Engine.new {|e| e.language = :eng e.blacklist = '|' } e.text_for('test/first.png').strip # => 'ABC'`

透過 Ruby 從特定影像區域提取文字

如何透過 Ruby 函式庫對影像執行 hOCR？
`require 'tesseract' e = Tesseract::Engine.new {|e| e.language = :eng e.blacklist = '|' } puts e.hocr_for('test/first.png')`

用於從圖像中載入和提取文字的高級免費 Ruby 庫

領先的開源 Ruby OCR API 和圖像到文本轉換器，允許軟體開發人員從圖像（掃描圖像和 PDF 文件）加載、識別和提取文本

概覽

平台獨立性

Ruby-Tesseract-OCR 入門

透過 Rubygems 安裝 Ruby-Tesseract-OCR

透過 Ruby 從影像和掃描文件中提取文字

如何使用 Ruby 指令從圖像中提取文字？require 'tesseract' e = Tesseract::Engine.new {|e| e.language = :eng e.blacklist = '|' } e.text_for('test/first.png').strip # => 'ABC'

透過 Ruby 從特定影像區域提取文字

如何透過 Ruby 函式庫對影像執行 hOCR？require 'tesseract' e = Tesseract::Engine.new {|e| e.language = :eng e.blacklist = '|' } puts e.hocr_for('test/first.png')

如何使用 Ruby 指令從圖像中提取文字？
`require 'tesseract' e = Tesseract::Engine.new {|e| e.language = :eng e.blacklist = '|' } e.text_for('test/first.png').strip # => 'ABC'`

如何透過 Ruby 函式庫對影像執行 hOCR？
`require 'tesseract' e = Tesseract::Engine.new {|e| e.language = :eng e.blacklist = '|' } puts e.hocr_for('test/first.png')`