用於向 Web 應用程式新增和管理 OCR 的開源 JavaScript API
領先的免費 JavaScript 庫,用於向 JS Web 應用程式添加光學字元辨識 (OCR) 功能,並將列印或手寫文字的圖像免費轉換為機器可讀的文字。
Tesseract.js 是一個非常有用的開源 JavaScript 函式庫,它使軟體開發人員能夠以最少的精力和成本將光學字元辨識 (OCR) 功能整合到其 Web 應用程式中。 OCR 是將列印或手寫文字的圖像轉換為機器可讀文字的過程。 Tesseract.js 是流行的 Tesseract OCR 引擎的移植版,最初由 Hewlett-Packard 在 20 世紀 80 年代開發,後來由 Google 維護。 Tesseract.js 可以識別 100 多種語言,這對於希望為 Web 應用程式添加 OCR 功能的開發人員來說是一個強大的工具。
Tesseract.js 非常易於處理,可用於各種任務,例如從掃描文件、收據和名片中提取文字、自動執行資料輸入任務以及增強 Web 應用程式中的搜尋功能。 Tesseract.js 的主要優勢之一是即使輸入影像的品質或解析度較差,它也能夠識別文字。該庫使用機器學習演算法來提高 OCR 結果的準確性。它還可以執行頁面佈局分析並偵測影像中的興趣區域。
Tesseract.js 因其易用性和強大的 OCR 功能而越來越受歡迎,並且可以在瀏覽器中或使用 NodeJS 的伺服器上順利運行。它提供了一個簡單的 API,允許軟體開發人員配置 OCR 選項,例如語言、頁面分段模式和白名單字元。它能夠從品質較差的圖像中識別文本,並支援多種語言,這使其成為適用於各種應用程式的寶貴工具,也是希望將OCR 添加到Web 應用程式的開發人員的絕佳選擇。 /p>
Tesseract.js 入門
安裝 Tesseract.js 的建議方法是使用 npm。請使用以下指令順利安裝
透過 JavaScript API 將映像轉換為文字
開源 JavaScript 程式庫 Tesseract.js 讓軟體開發人員可以輕鬆處理各種類型的圖像,例如 BMP、JPG、PNG、PBM、WebP 等。該庫支援從圖像中提取文本,以自動處理圖像、PDF 和掃描文件上的文本。以下範例示範如何僅使用幾行程式碼載入圖像並從中提取文字。語言參數用於確定在影像處理中使用的經過訓練的語言資料。軟體開發人員可以在這裡使用多種語言。
如何使用 JavaScript API 將圖像轉換為文字?
Tesseract.recognize(
image,language,
{
logger: m => console.log(m)
}
)
.catch (err => {
console.error(err);
})
.then(result => {
console.log(result);
})
}
透過 JS API 讀取影像區域並提取文字
開源 JavaScript 庫包含了一個非常有用的功能,用於讀取影像內的特定區域並在 JavaScript 應用程式中捕獲其資料。此 API 支援擷取影像區域,並嘗試使用內部強大的 OCR 引擎識別該區域內的文字。以下範例展示了軟體開發人員如何提供圖像的 URL,以及 API 如何輕鬆偵測和識別所選區域中的文字。
透過 JS API 讀取並辨識影像選定區域中的文字
const { createWorker } = require('tesseract.js');
const worker = await createWorker();
const rectangle = { left: 0, top: 0, width: 500, height: 250 };
(async () => {
await worker.loadLanguage('eng');
await worker.initialize('eng');
const { data: { text } } = await worker.recognize('https://tesseract.projectnaptha.com/img/eng_bw.png', { rectangle });
console.log(text);
await worker.terminate();
})();