Biblioteca OCR Swift Gratuita para Realizar OCR en Imágenes Escaneadas y PDFs

Biblioteca de Reconocimiento Óptico de Caracteres (OCR) Swift de código abierto que permite escanear, reconocer y extraer texto de fotos de cámara, imágenes escaneadas y PDFs de forma gratuita en iOS y macOS

¿Qué es SwiftyTesseract?

SwiftyTesseract es una biblioteca OCR de primera categoría, de código abierto, diseñada específicamente para el ecosistema Swift, que permite a los desarrolladores de software integrar sin problemas un reconocimiento óptico de caracteres sofisticado en sus aplicaciones iOS y macOS. Al aprovechar el potente motor Tesseract OCR, probado en la industria, ofrece una interfaz Swift intuitiva y simplificada para extraer con precisión texto de imágenes, documentos escaneados y diversos medios digitales. Esto la convierte en una base ideal para desarrolladores que construyen desde utilidades simples de lectura de texto hasta herramientas complejas de procesamiento de datos que requieren capacidades fiables de escaneo y reconocimiento de texto dentro del entorno Apple.

Esta biblioteca simplifica la integración de OCR al envolver la funcionalidad de Tesseract en una API directa y amigable para el desarrollador. Ofrece una gran versatilidad desde el primer momento, incluyendo un soporte robusto para múltiples idiomas, una característica crítica para crear aplicaciones internacionales. Para garantizar alta precisión, SwiftyTesseract incorpora capacidades esenciales de preprocesamiento de imágenes que mejoran la claridad del texto antes del reconocimiento. Además, los desarrolladores conservan un control granular al personalizar opciones clave de configuración de Tesseract, como el modo del motor OCR y el modo de segmentación de página. Su combinación de facilidad de uso, soporte multilingüe y profunda personalizabilidad hace de SwiftyTesseract una herramienta singularmente versátil y poderosa para desarrolladores que afrontan una amplia gama de proyectos de reconocimiento de texto.

De un vistazo

Una visión general de las características de SwiftyTesseract.

Features Overview

Realizar operaciones OCR
Agregar capacidades OCR
Reconocer texto de imagen
Exportar imagen a texto
Reconocer texto de fuente
Buscar en PDF
Más de 100 idiomas
Crear aplicaciones OCR
Guardar en el navegador
Extraer texto
Soporte multihilo
Reconocer texto de imágenes

SwiftyTesseract

SwiftyTesseract soporta los formatos de archivo de imagen populares listados a continuación.

Lector

PNG, JPEG, BMP, TIFF, TGA, DICOM

Escritor

PNG, JPEG, BMP, TIFF

SwiftyTesseract

Independencia de plataforma

SwiftyTesseract puede trabajar con cualquier lenguaje de programación basado en Swift

Swift 4.1 y superiores.

SwiftyTesseract

Comenzando con SwiftyTesseract

La forma recomendada de instalar SwiftyTesseract es usando CocoaPods. Por favor, use el siguiente comando para una instalación sin problemas.

Instalar SwiftyTesseract vía CocoaPods

 pod 'SwiftyTesseract'

También puede instalarlo manualmente; descargue los archivos de la última versión directamente del repositorio de GitHub.

Realizar OCR en una Imagen mediante la Biblioteca Swift

La biblioteca de código abierto SwiftyTesseract facilita a los desarrolladores cargar diversos tipos de imágenes y realizar operaciones OCR según sus necesidades dentro de aplicaciones Swift. Puede usar una imagen de los recursos de su aplicación o cualquier otra fuente. La biblioteca puede reconocer texto en varias tipografías, incluidas Serif, Arial, Sans-serif y tipografías script. Aquí hay un fragmento de código de ejemplo que muestra cómo los desarrolladores pueden reconocer texto de una imagen dentro de aplicaciones Swift.

¿Cómo reconocer texto de una imagen dentro de aplicaciones Swift?

import SwiftyTesseract

// Load the image
let image = UIImage(named: "image.jpg")!

// Create a Tesseract instance
let tesseract = Tesseract()

// Set the language to English
tesseract.language = "eng"

// Set the image
tesseract.image = image

// Recognize the text
tesseract.recognize() { result in
    if let text = result.text {
        print("Recognized text: \(text)")
    } else {
        print("Error recognizing text")
    }
}

Soporte de Preprocesamiento de Imágenes

La biblioteca SwiftyTesseract ha proporcionado un soporte completo para el preprocesamiento de imágenes antes de realizar operaciones OCR dentro de aplicaciones Swift. Por ejemplo, puede convertir imágenes a escala de grises, cambiar su tamaño, ajustar el contraste, corregir la inclinación, binarizar, etc. Aquí hay un ejemplo que muestra cómo los desarrolladores pueden cambiar el tamaño de una imagen antes de realizar OCR. En este ejemplo de código, resizeImage cambia el tamaño de la imagen antes de procesarla, lo que puede ser útil al trabajar con imágenes de alta resolución.

¿Cómo preprocesar imágenes antes de operaciones OCR dentro de aplicaciones Swift?

func resizeImage(_ image: UIImage, newSize: CGSize) -> UIImage? {
    UIGraphicsBeginImageContextWithOptions(newSize, false, 0.0)
    image.draw(in: CGRect(origin: .zero, size: newSize))
    let newImage = UIGraphicsGetImageFromCurrentImageContext()
    UIGraphicsEndImageContext()
    return newImage
}

if let resizedImage = resizeImage(image, newSize: CGSize(width: 300, height: 300)) {
    tesseract.performOCR(on: resizedImage) { recognizedText in
        print("Resized Image OCR result: \(recognizedText ?? "No text found")")
    }
}

Operaciones OCR multilingüe mediante la Biblioteca Swift

La biblioteca de código abierto SwiftyTesseract soporta el reconocimiento de texto en más de 100 idiomas, incluidos inglés, español, francés, alemán, chino y muchos más. Puede establecer los idiomas que desee al inicializar la biblioteca. Esta característica amplía su alcance de aplicación para usuarios internacionales y requisitos de procesamiento multilingüe. Además, los desarrolladores pueden crear diccionarios personalizados para mejorar la precisión del proceso OCR. Aquí hay un ejemplo de configuración de la biblioteca para inglés y español. Este código habilita OCR tanto en inglés como en español, lo que resulta útil al procesar documentos con contenido multilingüe.

¿Cómo seleccionar idiomas para operaciones OCR multilingüe dentro de aplicaciones Swift?

let tesseract = SwiftyTesseract(language: [.english, .spanish])

Parámetros OCR Personalizables

Usando la biblioteca de código abierto SwiftyTesseract, los desarrolladores de software tienen la capacidad de personalizar la configuración OCR para mejorar la precisión en tipos específicos de documentos o idiomas. Permite a los desarrolladores afinar el procesamiento OCR, haciendo que la biblioteca sea adaptable a escenarios OCR únicos o complejos. Esto incluye la capacidad de especificar idiomas y variables OCR según las necesidades del documento. A continuación se muestra un ejemplo que ilustra cómo los desarrolladores pueden personalizar el modo del motor OCR y el modo de segmentación de página.

¿Cómo personalizar el modo del motor OCR y el modo de segmentación de página mediante la API Swift?

let tesseract = SwiftyTesseract(language: .english, engineMode: .lstmOnly)
tesseract.performOCR(on: image, configuration: [.psm(.auto)]) { recognizedString in
    if let recognizedString = recognizedString {
        print("Recognized text with custom PSM: \(recognizedString)")
    }
}