用於從圖像中載入和提取文字的高級免費 Ruby 庫
領先的開源 Ruby OCR API 和圖像到文本轉換器,允許軟體開發人員從圖像(掃描圖像和 PDF 文件)加載、識別和提取文本
光學字元辨識 (OCR) 是一項強大的技術,可讓電腦從影像或掃描文件中識別並擷取文字。它有許多應用,從數位化印刷材料到自動化數據輸入過程。在 Ruby 程式語言中,一種流行的 OCR 函式庫是 Ruby-Tesseract-OCR。 Ruby-Tesseract-OCR 是一個 Ruby gem,用作 Tesseract OCR 引擎的包裝器。 Tesseract 是 Google 開發的開源 OCR 引擎,以其準確性和語言支援而聞名。
Ruby-Tesseract-OCR 超越了基本的 OCR 功能,並為高階用例提供了附加功能。例如,軟體開發人員可以指定影像中的興趣區域 (ROI),以將 OCR 分析限制在特定區域。當處理複雜文件或僅需要從特定部分提取文字時,這特別有用。該程式庫提供了一些附加功能來增強 OCR 功能,例如載入現有圖像、從圖像或掃描文件中提取文字、獲取 HOCR (HTML OCR) 輸出等等。
Ruby-Tesseract-OCR gem 提供了一個易於使用的介面來與 Tesseract 引擎交互,使 Ruby 開發人員能夠輕鬆地將 OCR 功能整合到他們的專案中。無論您需要從發票中提取資訊、數位化印刷材料或自動化資料輸入任務,開源程式庫都提供了可靠且高效的解決方案。立即嘗試一下,釋放 OCR 在您的 Ruby 專案中的潛力。
Ruby-Tesseract-OCR 入門
安裝 Ruby-Tesseract-OCR 的建議方法是使用 Rubygems。為了順利安裝,請使用以下命令。
透過 Ruby 從影像和掃描文件中提取文字
Ruby-Tesseract-OCR 是一個非常強大的開源程式庫,允許軟體開發人員只需幾行 Ruby 程式碼即可從各種類型的圖像中載入和提取文字。該庫可以輕鬆地從圖像、PDF 或掃描文件中提取文字。典型的工作流程包括載入圖像、配置 OCR 參數以及呼叫 OCR 引擎來識別文字。為了成功操作,開發人員需要提供他們想要處理的圖像的路徑,並呼叫 text_for 方法來提取文字。最後,結果將列印到控制台。該程式庫提供了各種用於控制 OCR 行為的 Fconfiguration 選項,例如頁面分段模式、白名單字元等。以下範例展示了軟體開發人員如何在 Ruby 應用程式中載入 JPEG 影像並從中提取文字。
如何使用 Ruby 指令從圖像中提取文字?require 'tesseract'
e = Tesseract::Engine.new {|e|
e.language = :eng
e.blacklist = '|'
}
e.text_for('test/first.png').strip # => 'ABC'
require 'tesseract'
e = Tesseract::Engine.new {|e|
e.language = :eng
e.blacklist = '|'
}
e.text_for('test/first.png').strip # => 'ABC'
透過 Ruby 從特定影像區域提取文字
開源 Ruby-Tesseract-OCR 程式庫超越了基本的 OCR 功能,並為高階用例提供了附加功能。例如,使用者可以指定影像中的興趣區域 (ROI),以將 OCR 分析限制在特定區域。當處理複雜文件或使用者只需要從特定部分提取文字時,這特別有用。此外,該程式庫還提供了獲取 HOCR(HTML OCR)輸出的方法,其中不僅包括識別的文本,還包括有關文本元素的佈局和座標的資訊。當您需要更精細的資料或想要對文字結構進行進一步分析時,HOCR 輸出非常有用。
如何透過 Ruby 函式庫對影像執行 hOCR?require 'tesseract'
e = Tesseract::Engine.new {|e|
e.language = :eng
e.blacklist = '|'
}
puts e.hocr_for('test/first.png')
require 'tesseract'
e = Tesseract::Engine.new {|e|
e.language = :eng
e.blacklist = '|'
}
puts e.hocr_for('test/first.png')