Sto provando a scrivere un programma in Python che prenderà un input di un file .wav (suono) e determinerà se l'utente sta dicendo "sì" o "no".
Il problema è che i file audio non hanno sempre la stessa lunghezza.
Sono preoccupato che con una dimensione di input statico (ovvero 5 secondi di audio), potrei avere un campione che supera quella dimensione.
Recentemente ho letto questo documento scritto da Google Deepmind, che utilizza il suono, ma non posso dire come si comportano con questo problema.
Saranno apprezzati eventuali approfondimenti su come consentire alla mia rete neurale di gestire un input di dimensioni variabili.