La scrittura a mano OCR è più accurata se l'autore della calligrafia è indicato?

3

Domanda

Quando ti alleni e usi un algoritmo OCR per il riconoscimento della calligrafia, è utile indicare l'autore della calligrafia?

Usa caso

Avere un magazzino pieno di documenti che devono essere trascritti in formato digitale.

Vorremmo prima inserire i documenti in un algoritmo OCR. Se l'algoritmo OCR riporta un punteggio di confidenza basso, passeremo i documenti a una persona reale per la trascrizione e, naturalmente, utilizzeremo i risultati per un ulteriore addestramento algoritmo, in modo che i documenti futuri, in particolare dello stesso autore, abbiano un livello più alto possibilità di essere trascritto ad un livello di confidenza soddisfacente.

Per ogni documento, è possibile, ma non banale, determinare l'autore del documento e assegnarlo all'algoritmo OCR. Prevediamo che ci dovrebbero essere nell'ordine di 100 autori per 8 milioni di documenti.

Intuitivamente, ho pensato che conoscere l'autore avrebbe aumentato l'efficacia dell'algoritmo, ma su un'ulteriore riflessione, non sono sicuro se questo è il caso. Quando leggo la scrittura a mano, di solito non penso all'autore, ma intuisco invece come decifrare la calligrafia basata sullo stile.

Nota: per efficacia intendo principalmente maggiore accuratezza e in secondo luogo minore utilizzo delle risorse.

    
posta Chris Dutrow 12.01.2017 - 01:08
fonte

1 risposta

3

Sarebbe utile se la calligrafia fosse riconosciuta dalla stessa persona che ha creato la scrittura per il set di addestramento dell'OCR. All'OCR non potrebbe importare di meno chi sia, e in pratica non avrai il lusso di un campione di addestramento personalizzato.

Invece, l'OCR è esposto a un'ampia varietà di stili di scrittura per scopi formativi, quindi seleziona quelle caratteristiche comuni a tutti gli stili di scrittura a mano per cui determinate funzioni di lettere e parole corrispondono a parole specifiche e frasi.

    
risposta data 12.01.2017 - 01:12
fonte

Leggi altre domande sui tag