Nemokama Swift OCR biblioteka OCR atlikimui su nuskenuotais vaizdais ir PDF

Atviro kodo Swift optinio simbolių atpažinimo (OCR) biblioteka leidžia nemokamai nuskenuoti, atpažinti ir išgauti tekstą iš foto nuotraukų, nuskenuotų vaizdų ir PDF failų iOS ir macOS platformose

Kas yra SwiftyTesseract?

SwiftyTesseract yra pirmaujanti, atviro kodo OCR biblioteka, sukurta specialiai Swift ekosistemai, suteikianti programinės įrangos kūrėjams galimybę sklandžiai integruoti sudėtingą optinį simbolių atpažinimą į savo iOS ir macOS programas. Pasinaudodama galingu, pramonėje patikrintu Tesseract OCR varikliu, ji suteikia intuityvią ir supaprastintą Swift sąsają, leidžiančią tiksliai išgauti tekstą iš vaizdų, nuskenuotų dokumentų ir įvairios skaitmeninės medijos. Tai daro ją idealia pagrindo biblioteka kūrėjams, kuriant viską nuo paprastų teksto skaitymo įrankių iki sudėtingų duomenų apdorojimo sprendimų, kuriems reikalingas patikimas teksto skenavimas ir atpažinimas Apple aplinkoje.

Ši biblioteka supaprastina OCR integravimą, supakuodama Tesseract funkcionalumą į paprastą ir kūrėjui patogią API. Ji siūlo platų lankstumą iš karto, įskaitant patikimą kelių kalbų palaikymą – svarbų bruožą kuriant tarptautines programas. Siekdama aukšto tikslumo, SwiftyTesseract įtraukia būtinas vaizdų išankstinio apdorojimo galimybes, kurios pagerina teksto aiškumą prieš atpažinimą. Be to, kūrėjai išlaiko smulkią kontrolę, pritaikydami pagrindines Tesseract konfigūracijos parinktis, tokias kaip OCR variklio režimas ir puslapio segmentavimo režimas. Jos lengvas naudojimas, daugiakalbis palaikymas ir gili pritaikymo galimybė daro SwiftyTesseract unikaliu, universalų ir galingą įrankį programinės įrangos kūrėjams, sprendžiantiems įvairius teksto atpažinimo projektus.

Apžvalga

SwiftyTesseract savybių apžvalga.

Savybių apžvalga

Vykdyti OCR operacijas
Pridėti OCR galimybes
Atpažinti vaizdo tekstą
Vaizdo į tekstą eksportavimas
Atpažinti šrifto tekstą
PDF paieška
Virš 100 kalbų
Kurti OCR programėles
Išsaugoti naršyklėje
Išgauti tekstą
Daugiagijų palaikymas
Atpažinti vaizdų tekstą

SwiftyTesseract

SwiftyTesseract palaiko populiarius vaizdo failų formatus, išvardintus žemiau.

Skaitytojas

PNG, JPEG, BMP, TIFF, TGA, DICOM

Rašytojas

PNG, JPEG, BMP, TIFF

SwiftyTesseract

Platformų nepriklausomumas

SwiftyTesseract gali veikti su bet kuria Swift pagrindu sukurta programavimo kalba

Swift 4.1 ir naujesnės versijos.

SwiftyTesseract

Pradžia su SwiftyTesseract

Rekomenduojamas būdas įdiegti SwiftyTesseract yra naudojant CocoaPods. Prašome naudoti šią komandą sklandžiam įdiegimui.

Įdiegti SwiftyTesseract per CocoaPods

 pod 'SwiftyTesseract'

Taip pat galite įdiegti rankiniu būdu; atsisiųskite naujausius leidimo failus tiesiai iš GitHub saugyklos.

OCR atlikimas vaizde naudojant Swift biblioteką

Atviro kodo SwiftyTesseract biblioteka leidžia programinės įrangos kūrėjams lengvai įkelti įvairius vaizdus ir atlikti OCR operaciją pagal jų poreikius Swift programose. Galite naudoti vaizdą iš programos išteklių arba bet kurio kito šaltinio. Biblioteka gali atpažinti tekstą įvairiais šriftais, įskaitant Serif, Arial, Sans-serif ir skriptų šriftus. Štai pavyzdinis kodo fragmentas, demonstruojantis, kaip kūrėjai gali atpažinti tekstą iš vaizdo Swift programose.

Kaip atpažinti tekstą iš vaizdo Swift programose?

import SwiftyTesseract

// Load the image
let image = UIImage(named: "image.jpg")!

// Create a Tesseract instance
let tesseract = Tesseract()

// Set the language to English
tesseract.language = "eng"

// Set the image
tesseract.image = image

// Recognize the text
tesseract.recognize() { result in
    if let text = result.text {
        print("Recognized text: \(text)")
    } else {
        print("Error recognizing text")
    }
}

Vaizdų išankstinis apdorojimas

SwiftyTesseract biblioteka suteikia pilną palaikymą vaizdų išankstiniam apdorojimui prieš atliekant OCR operacijas Swift programose. Pavyzdžiui, galite konvertuoti vaizdus į pilką skalę, keisti jų dydį, reguliuoti kontrastą, išlyginti iškraipymus, binarizuoti ir t.t. Štai pavyzdys, kaip kūrėjai gali pakeisti vaizdo dydį prieš atliekant OCR. Šiame kodo pavyzdyje funkcija resizeImage keičia vaizdo dydį prieš jo apdorojimą, kas gali būti naudinga dirbant su didelės raiškos vaizdais.

Kaip iš anksto apdoroti vaizdus prieš OCR operacijas Swift programose?

func resizeImage(_ image: UIImage, newSize: CGSize) -> UIImage? {
    UIGraphicsBeginImageContextWithOptions(newSize, false, 0.0)
    image.draw(in: CGRect(origin: .zero, size: newSize))
    let newImage = UIGraphicsGetImageFromCurrentImageContext()
    UIGraphicsEndImageContext()
    return newImage
}

if let resizedImage = resizeImage(image, newSize: CGSize(width: 300, height: 300)) {
    tesseract.performOCR(on: resizedImage) { recognizedText in
        print("Resized Image OCR result: \(recognizedText ?? "No text found")")
    }
}

Daugiakalbis OCR naudojant Swift biblioteką

Atviro kodo SwiftyTesseract biblioteka palaiko teksto atpažinimą daugiau nei 100 kalbų, įskaitant anglų, ispanų, prancūzų, vokiečių, kinų ir daugelį kitų. Galite nustatyti norimas kalbas inicijuojant biblioteką. Ši funkcija plečia jos taikymo sritį tarptautiniams vartotojams ir daugiakalbiam apdorojimui. Be to, kūrėjai gali kurti pasirinktines žodynų bazes, kad pagerintų OCR tikslumą. Štai pavyzdys, kaip konfigūruoti biblioteką anglų ir ispanų kalboms. Šis kodas įgalina OCR tiek anglų, tiek ispanų kalbomis, kas naudinga apdorojant dokumentus su mišriu kalbų turiniu.

Kaip pasirinkti kalbas daugiakalbiam OCR naudojimui Swift programose?

let tesseract = SwiftyTesseract(language: [.english, .spanish])

Pritaikomi OCR parametrai

Naudojant atviro kodo SwiftyTesseract biblioteką, programinės įrangos kūrėjai gali pritaikyti OCR nustatymus, kad pagerintų tikslumą specifiniams dokumentų tipams ar kalboms. Tai leidžia kūrėjams smulkiai derinti OCR apdorojimą, padarant biblioteką pritaikoma unikalioms ar sudėtingoms OCR scenarijams. Tai apima galimybę nurodyti kalbas ir OCR kintamuosius pagal dokumento poreikius. Žemiau pateiktas pavyzdys rodo, kaip kūrėjai gali pritaikyti OCR variklio režimą ir puslapio segmentavimo režimą.

Kaip pritaikyti OCR variklio režimą ir puslapio segmentavimo režimą per Swift API?

let tesseract = SwiftyTesseract(language: .english, engineMode: .lstmOnly)
tesseract.performOCR(on: image, configuration: [.psm(.auto)]) { recognizedString in
    if let recognizedString = recognizedString {
        print("Recognized text with custom PSM: \(recognizedString)")
    }
}