Bibliothèque Ruby gratuite avancée pour charger et extraire du texte à partir d'images
Une API Ruby OCR Open Source de premier plan et un convertisseur d'image en texte qui permet aux développeurs de logiciels de charger, reconnaître et extraire du texte à partir d'images (images numérisées et fichiers PDF)
La reconnaissance optique de caractères (OCR) est une technologie puissante qui permet aux ordinateurs de reconnaître et d'extraire du texte à partir d'images ou de documents numérisés. Il a de nombreuses applications, allant de la numérisation de documents imprimés à l'automatisation des processus de saisie de données. Dans le langage de programmation Ruby, une bibliothèque populaire pour l'OCR est Ruby-Tesseract-OCR. Ruby-Tesseract-OCR est une gemme Ruby qui sert de wrapper pour le moteur Tesseract OCR. Tesseract est un moteur OCR Open Source développé par Google et réputé pour sa précision et sa prise en charge linguistique.
Ruby-Tesseract-OCR va au-delà des capacités OCR de base et offre des fonctionnalités supplémentaires pour les cas d'utilisation avancés. Par exemple, les développeurs de logiciels peuvent spécifier une région d'intérêt (ROI) dans une image pour limiter l'analyse OCR à une zone spécifique. Ceci est particulièrement utile lorsque vous traitez des documents complexes ou lorsque vous devez uniquement extraire du texte d'une section spécifique. La bibliothèque fournit plusieurs fonctionnalités supplémentaires pour améliorer les capacités OCR, telles que le chargement d'une image existante, l'extraction de texte à partir d'images ou de documents numérisés, l'obtention d'une sortie HOCR (HTML OCR), et bien d'autres encore.
La gem Ruby-Tesseract-OCR fournit une interface facile à utiliser pour interagir avec le moteur Tesseract, permettant aux développeurs Ruby d'intégrer facilement les fonctionnalités OCR dans leurs projets. Que vous ayez besoin d'extraire des informations de factures, de numériser des documents imprimés ou d'automatiser des tâches de saisie de données, la bibliothèque open source offre une solution fiable et efficace. Essayez-le et libérez dès aujourd'hui le potentiel de l'OCR dans vos projets Ruby.
Premiers pas avec Ruby-Tesseract-OCR
La méthode recommandée pour installer Ruby-Tesseract-OCR consiste à utiliser Rubygems. Veuillez utiliser la commande suivante pour une installation fluide.
Installer Ruby-Tesseract-OCR via Rubygems
gem install tesseract-ocr
Vous pouvez télécharger la bibliothèque partagée compilée depuis le dépôt Github.
Extraire le texte des images et des documents numérisés via Ruby
Ruby-Tesseract-OCR est une bibliothèque open source très puissante qui permet aux développeurs de logiciels de charger et d'extraire du texte à partir de différents types d'images avec seulement quelques lignes de code Ruby. La bibliothèque facilite l'extraction de texte à partir d'images, de PDF ou de documents numérisés. Le flux de travail typique implique le chargement d'une image, la configuration des paramètres OCR et l'appel du moteur OCR pour reconnaître le texte. Pour une opération réussie, les développeurs doivent fournir le chemin d’accès à l’image qu’ils souhaitent traiter et appeler la méthode text_for pour extraire le texte. Enfin, le résultat sera imprimé sur la console. La bibliothèque propose diverses options de configuration F pour contrôler le comportement de l'OCR, telles que le mode de segmentation des pages, les caractères de la liste blanche, etc. Les exemples suivants montrent comment les développeurs de logiciels peuvent charger une image JPEG et en extraire du texte dans les applications Ruby.
Comment extraire du texte à partir d'images à l'aide des commandes Ruby ?
require 'tesseract'
e = Tesseract::Engine.new {|e|
e.language = :eng
e.blacklist = '|'
}
e.text_for('test/first.png').strip # => 'ABC'
Extraire le texte d'une zone d'image particulière via Ruby
La bibliothèque open source Ruby-Tesseract-OCR va au-delà des capacités OCR de base et offre des fonctionnalités supplémentaires pour les cas d'utilisation avancés. Par exemple, les utilisateurs peuvent spécifier une région d'intérêt (ROI) dans une image pour limiter l'analyse OCR à une zone spécifique. Ceci est particulièrement utile lorsqu'il s'agit de documents complexes ou lorsque les utilisateurs doivent uniquement extraire le texte d'une section spécifique. De plus, la bibliothèque fournit des méthodes pour obtenir une sortie HOCR (HTML OCR), qui inclut non seulement le texte reconnu, mais également des informations sur la disposition et les coordonnées des éléments de texte. La sortie HOCR est utile lorsque vous avez besoin de données plus granulaires ou que vous souhaitez effectuer une analyse plus approfondie de la structure du texte.
Comment effectuer une hOCR sur une image via Ruby Library ?
require 'tesseract'
e = Tesseract::Engine.new {|e|
e.language = :eng
e.blacklist = '|'
}
puts e.hocr_for('test/first.png')