Come far funzionare una rete neurale con un input di dimensioni variabili

1

Sto provando a scrivere un programma in Python che prenderà un input di un file .wav (suono) e determinerà se l'utente sta dicendo "sì" o "no".

Il problema è che i file audio non hanno sempre la stessa lunghezza.

Sono preoccupato che con una dimensione di input statico (ovvero 5 secondi di audio), potrei avere un campione che supera quella dimensione.

Recentemente ho letto questo documento scritto da Google Deepmind, che utilizza il suono, ma non posso dire come si comportano con questo problema.

Saranno apprezzati eventuali approfondimenti su come consentire alla mia rete neurale di gestire un input di dimensioni variabili.

    
posta Pro Q 27.03.2017 - 06:23
fonte

1 risposta

2

In generale la maggior parte dell'elaborazione del suono funziona come l'elaborazione di altri linguaggi naturali in quanto uno dei primi passi è quello di suddividere i dati in token di base, cioè le parole: nell'elaborazione del suono umano dividiamo le parole in base al silenzio tra di esse. Di conseguenza è possibile pre-elaborare in:

  1. Filtrare il suono al di fuori della normale, significativa, larghezza di banda del parlato, questo è ciò che fanno le compagnie telefoniche per risparmiare larghezza di banda.
  2. Dividi ogni campione in blocchi in base agli spazi vuoti.

Questo è l'equivalente dei sistemi di deep learning visivi che standardizzano la dimensione e la profondità di bit delle immagini.

Con alcune persone, che gestiscono le loro parole l'una nell'altra, il software avrà alcuni problemi, ma lo farebbe anche la maggior parte degli ascoltatori.

    
risposta data 27.03.2017 - 07:53
fonte

Leggi altre domande sui tag