link
Il documento sopra fornisce alcune spiegazioni di un audit di un tale sistema. Il primo posto in cui iniziano è l'utilizzo di un'API per automatizzare le chiamate (skype in questo caso) e il lavoro sullo sfocare l'interfaccia basata su DTMF. Sembra che pochi di questi sistemi siano basati esclusivamente sul riconoscimento vocale e che molti exploit possano essere trovati semplicemente automatizzando i bit del tono del tocco.
link
ha anche alcune informazioni su come rompere un tale sistema.
Quindi per 1) Non devi necessariamente sfocare la voce direttamente.
Ora, se hai deciso che dovevi usare la voce fuzz, non penso che esista una libreria che lo farà per te. Vorrei iniziare con un dizionario di parole registrate - forse link - e scrivere uno script per riprodurre probabili combinazioni di parole. Dovresti usare la skype api per fare la chiamata, e poi suonare le frasi che hai trovato per testare il sistema.
Potrebbe anche essere utile girare rumori casuali / toni sinusoidali nel sistema. Potresti trovare qualche tipo di frequenza di test che apre il sistema come facevano i vecchi phreak telefonici. Ci sono letteralmente tonnellate di programmi che ti aiuteranno a scrivere i toni dei test. Se vuoi, puoi anche scrivere quella parte in javascript con l'API Web Audio.
Quindi, potresti voler utilizzare il software di riconoscimento vocale per rilevare i guasti e i successi.
Nulla di tutto ciò sarà possibile senza una completa mappatura del sistema in anticipo. Il piano di test che ho linkato sopra suggerisce che, e penso che sia da dove dovresti iniziare.