Riconoscimento lingua dei segni [chiuso]

2

Sono uno studente laureando dell'ultimo anno dell'Information Technology. Il mio team e io abbiamo ripreso "Sign Language Recognition" come nostro progetto per l'anno conclusivo. Abbiamo appena iniziato e siamo nella fase di raccolta delle informazioni (raccolta di dati). Prevediamo di utilizzare Instrumented Gloves come dispositivo di input. Ma non abbiamo molta conoscenza nell'area.

Inoltre, ci siamo imbattuti nei seguenti metodi per addestrare il sistema al riconoscimento effettivo dei gesti e quindi al linguaggio dei segni.

  1. Reti neurali
  2. Algoritmi di apprendimento simbolico
  3. Modelli di Markov nascosti
  4. Apprendimento basato sull'istanza
  5. Tecniche basate su grammatica

Per favore dimmi quali di questi dovrei usare per il riconoscimento dei segni.

Inoltre, parlami di Instrumented Gloves e c'è qualche varietà specifica che dovremmo scegliere per il nostro progetto?

    
posta shahensha 06.08.2011 - 19:20
fonte

4 risposte

3

Thad Starner ( ora su GA Tech ) è stato in grado di farlo funzionare con HMM e una videocamera montata sul cappuccio nel 1995. Immagino che tu abbia un po 'di fortuna su queste linee con il massiccio aumento della potenza di elaborazione e dei sensori da allora.

Thad Starner e Alex Pentland. Riconoscimento della lingua dei segni in tempo reale da video usando i modelli markov nascosti. In Proceedings of International Symposium on Computer Vision, Coral Gables, FL, USA, 1995. IEEE Computer Society Press.

Dovrai fare un sacco di pulizia / filtraggio dei dati prima che arrivi all'HMM, comunque. Questo è un compito di elaborazione del segnale e può essere adatto per usare la logica fuzzy per classificare gli input (guarda come viene eseguito il riconoscimento del gesto del mouse) e qualcosa come un NN per ridimensionare i dati.

    
risposta data 11.08.2011 - 17:38
fonte
2

So che alcune ASL (?) sono state acquisite e riconosciute dai computer in passato, e che è stato qualche tempo fa. Ricordo di aver guardato video di questo su VHS. 1994 al più tardi.

Le lingue dei segni (ce ne sono più di una) sono in genere media multicanale - non sono solo le maniere, quindi i maggio non possono essere abbastanza (a seconda dei tuoi obiettivi). La mia ASL è quasi inesistente, ma Lingua dei segni britannica usa qualcosa di simile (è necessario un pizzico di sale, sono molto arrugginito):

  • ‘Fonologia’:
    • 26 forme a mano (configurazioni delle dita).
    • Vari orientamenti delle mani
    • Varie posizioni iniziali della mano
    • Vari tipi di movimenti della mano
    • Forme delle spalle.
    • Posizione della testa e inclinazione. (in BSL, un leggero "cenno" indica la prima persona)
    • Sopracciglia e occhi.
    • Forme di bocca.
    • Espressioni complessive sensibili al contesto . Potrebbe essersi verificato qualcosa di brutto, ma la tua espressione dovrebbe cambiare brevemente all'espressione richiesta dal segno.
  • Grammatica:
    • Firma dello spazio (dove, in relazione al corpo, sono consentiti i segni)
    • Molto diverso dalla grammatica inglese. Per esempio. BSL generalmente segue un ordine di parole Oggetto-Oggetto-Verbale, dove frasi come CAT DOG CHASED ('il cane inseguito dal gatto') sono la norma.
    • Pronomi spaziali: incantesimi a mano un nome, punta a una posizione nello spazio per la firma e puoi quindi puntare a ritroso là piuttosto che scrivere a mano o firmare il nome.
    • Aspetto verbale: non conosco ASL, ma BSL ha un aspetto molto complesso. È possibile sottolineare un segno allungando il "tempo di attesa" (stato iniziale del segno) e rendendo il movimento brusco. Un altro aspetto a cui riesco a pensare ora indica se qualcosa si svolge lentamente, rapidamente (e quanto lentamente o rapidamente), direzione del viaggio, l'atteggiamento del firmatario nei confronti di ciò che viene firmato, ecc. "Mi fissarono a lungo e io ero mettere fuori 'è essenzialmente il verbo singolo' VEDERE 'con un sacco di aspetti.
  • Sintassi: di nuovo, abbastanza diverso da ciò a cui sei abituato. BSL è una via di mezzo tra giapponese e spagnolo, ma probabilmente è una semplificazione eccessiva.
  • Complicazioni: il fingerpelling segue leggermente le regole in BSL (non tanto nell'ASL). C'è un'incredibile quantità di gergo locale-locale (le lingue dei segni non sono scritte, quindi sono molto simili alle lingue parlate prima dell'invenzione della scrittura - in alcuni casi, i ragazzi finiscono le scuole e le ragazze dei ragazzi che finiscono le scuole per trovare avevano lingue molto divergenti) e un bel po 'di prestiti. Il mio preferito è lo slang (probabilmente solo scozzese) per "I love you", che è un amalgama delle lettere ASL I, L, Y (pensa il gesto standard di Spiderman) trasformato in un verbo transitivo (il segno si sposta da vicino al firmatario torso alla persona designata): una forma di handshape completamente invalida in BSL, ma trasformata in un verbo BSL.

Penso che sarai seriamente impegnato a catturare e analizzare con successo tutti di questi canali. Forse leggere un sottoinsieme adeguatamente limitato può essere una buona idea: mani di base (la diteggiatura ASL è molto chiara, e dovrebbe essere molto facile oggi) e alcuni movimenti di base. Potrebbe essere necessario limitare la complessità delle frasi che si analizzano poiché probabilmente non sarà possibile acquisire tutti gli aspetti in modo affidabile.

Il software si sentirà un po 'come se fosse un principiante dell'udito della lingua dei segni, ma si sentirà molto. Sospetto che i firmatari si adatteranno molto rapidamente. Dopo tutto, i madrelingua inglesi possono ancora capire una frase anche se mancano alcuni articoli.

    
risposta data 12.05.2012 - 16:35
fonte
1

Prendendo in prestito pesantemente dai commenti: penso che dovresti esaminare gli algoritmi di riconoscimento delle immagini esistenti. Personalmente, implementerei semplicemente uno esistente open source. Una volta che hai una comprensione e un conforto con uno, allenalo su un unico segnale.

Usa l'output dei tuoi guanti per generare un'immagine. A tal fine vorrei cercare un guanto che fornisca un'uscita facilmente traducibile su un'immagine, come una tabella di bit che rappresenta la posizione delle cifre. Quindi passa le immagini nel software di riconoscimento immagini.

Una volta che i due stanno lavorando insieme, i tuoi guanti e il software di riconoscimento delle immagini, dovresti passare a qualsiasi interfaccia utente desideri, ad esempio l'output vocale o di testo.

Infine continua ad aggiungere segni, prova dopo ogni aggiunta, fino a quando il tuo semestre è scaduto, o le prestazioni del sistema si degradano troppo.

    
risposta data 11.08.2011 - 17:13
fonte
1

C'è un altro approccio disponibile, recentemente ho lavorato a un progetto che usava waver gabor in riconoscimento facciale voce di Wikipedia per wavelets Gabor . E sono incappato in un progetto interessante che si adatta alle tue necessità.

Il progetto ruota intorno a una carta, rock & gioco delle forbici e il riconoscimento dei simboli usati all'interno di un gioco. Tiene traccia del giocatore attraverso la fotocamera e riconosce il gesto della mano.

Il progetto può essere trovato sul seguente link (progetto Ropesi) . Ci sono alcuni video all'interno del trunk svn che dimostrano l'uso e l'applicazione del progetto.

    
risposta data 12.05.2012 - 13:48
fonte

Leggi altre domande sui tag