È possibile identificare l'utente di un telefono cellulare con riconoscimento vocale

4

Un mio amico afferma che è possibile identificare ogni chiamata anonima (prepagata, skype, ecc.) solo usando il riconoscimento vocale. Tuttavia la letteratura scientifica che ho letto finora è ambigua, cioè se si applica il riconoscimento vocale a un numero limitato di individui, è possibile identificare in modo affidabile chi è chi. Tuttavia se il numero raggiunge un certo limite diventa impossibile. Quindi la domanda è: l'identificazione dell'utente tramite il riconoscimento vocale di tutti i partecipanti alla rete è davvero possibile o il mio amico è solo paranoico?

    
posta CuriousIndeed 13.05.2018 - 23:18
fonte

3 risposte

2

However if the number reaches a certain limit this becomes impossible.

Perché? Il problema di base è: dato un segnale, determinare le impronte digitali corrispondenti. Questo problema è parallelizzabile e quindi potrebbe essere risolto utilizzando architetture parallele (GPU, anche FPGA).

Una volta che hai un modo per confrontare in modo affidabile il tuo segnale con un'impronta digitale - e questo è possibile anche nella letteratura scientifica conosciuta - puoi eseguire diverse istanze di questo algoritmo di corrispondenza, uno per impronta digitale nel tuo database (o gruppo di impronte digitali) e raccogliere il risultato alla fine.

Un memo NSA classificato 2006 , trapelato da Snowden, afferma che alcune tecniche di identificazione degli altoparlanti conosciute dalla NSA funzionano, nelle loro stesse parole,

largely independently of the language spoken.

L'unicità è probabilmente un problema, se si considera una scala così ampia. Anche le impronte digitali reali non sono uniche.

Pensiero altamente speculativo qui. Potrebbe essere possibile combinare le impronte digitali con altre informazioni conosciute (posizione, proprietario di quel numero / dispositivo, i nomi vengono pronunciati nella conversazione stessa ad es. "Ciao Giovanni"). Questo può essere fatto in un'indagine, in caso di necessità. Potrebbe essere possibile farlo automaticamente, ma ancora una volta si tratta di pura speculazione.

Ad ogni modo, che dire dello storage? Facciamo un semplice calcolo.

Prendi questo documento come esempio di un sistema di riconoscimento automatico degli altoparlanti riconosciuto pubblicamente. Presenta un tasso di errore uguale (EER) tra 0,57% e 2,62% con 25 secondi di registrazione di allenamento a persona.

A 8 kbps, 25 secondi equivalgono a 200 KB. Moltiplicalo per 7 × 10 9 (7 miliardi di persone su questa Terra) e ottieni 1,4 petabyte.

Anche se può sembrare enorme, non è impossibile.

Il data center NSA in Utah si presume che abbia una capacità massima da 3 a 12 exabyte . Si stima che Google disponga di 10-15 exabyte di dati. Stiamo parlando di migliaia di petabyte qui.

Sebbene si tratti chiaramente di una stima, l'ordine di grandezza dovrebbe essere corretto.

Inoltre, non hai davvero bisogno di tenere tutte quelle registrazioni di allenamento. Dopo aver estratto le funzioni che desideri, potresti, almeno in teoria, eliminarle, il che significa che puoi risparmiare molto spazio. Inoltre, non stiamo considerando i progressi classificati nei sistemi di identificazione degli altoparlanti, che potrebbero essere possibili.

Non è chiaro se sia possibile farlo in tempo reale, a causa dell'elevato numero di impronte digitali, ma l'identificazione non in tempo reale sembra certamente fattibile anche se raccogli campioni da ogni persona vivente sulla Terra.

Conclusione. Anche se ovviamente non lo sappiamo per certo, l'identificazione automatica degli altoparlanti sulle telefonate, dati i campioni di addestramento di ogni persona sulla Terra, sembra un problema impegnativo ma tecnicamente fattibile per un'organizzazione molto avanzata . Non è chiaro se può essere fatto in tempo reale. L'unicità delle impronte digitali (o la loro mancanza) può essere un problema su una scala così ampia.

    
risposta data 15.05.2018 - 09:34
fonte
2

Beh, probabilmente è vero e banale da simulare. Puoi trovare i motori vocali in giro, e se usi un motore vocale del genere, non sarà possibile identificare l'essere umano che ha preparato il testo.

Peggio, è facile ottenere parole e / o frasi parziali da parte della gente dalla radio o da internet. La semplice elaborazione dei file audio potrebbe quindi farli dire più o meno qualsiasi cosa. E presto cadi nello stesso problema di identificare i gangster che indossano maschere dal riconoscimento facciale ...

    
risposta data 14.05.2018 - 12:53
fonte
-3

Se fosse possibile il riconoscimento vocale, ciò significherebbe creare un enorme database e questo non accadrebbe mai a causa di problemi di sicurezza. Il tuo amico è paranoico.

    
risposta data 14.05.2018 - 14:25
fonte

Leggi altre domande sui tag