However if the number reaches a certain limit this becomes impossible.
Perché? Il problema di base è: dato un segnale, determinare le impronte digitali corrispondenti. Questo problema è parallelizzabile e quindi potrebbe essere risolto utilizzando architetture parallele (GPU, anche FPGA).
Una volta che hai un modo per confrontare in modo affidabile il tuo segnale con un'impronta digitale - e questo è possibile anche nella letteratura scientifica conosciuta - puoi eseguire diverse istanze di questo algoritmo di corrispondenza, uno per impronta digitale nel tuo database (o gruppo di impronte digitali) e raccogliere il risultato alla fine.
Un memo NSA classificato 2006 , trapelato da Snowden, afferma che alcune tecniche di identificazione degli altoparlanti conosciute dalla NSA funzionano, nelle loro stesse parole,
largely independently of the language spoken.
L'unicità è probabilmente un problema, se si considera una scala così ampia. Anche le impronte digitali reali non sono uniche.
Pensiero altamente speculativo qui. Potrebbe essere possibile combinare le impronte digitali con altre informazioni conosciute (posizione, proprietario di quel numero / dispositivo, i nomi vengono pronunciati nella conversazione stessa ad es. "Ciao Giovanni"). Questo può essere fatto in un'indagine, in caso di necessità. Potrebbe essere possibile farlo automaticamente, ma ancora una volta si tratta di pura speculazione.
Ad ogni modo, che dire dello storage? Facciamo un semplice calcolo.
Prendi questo documento come esempio di un sistema di riconoscimento automatico degli altoparlanti riconosciuto pubblicamente. Presenta un tasso di errore uguale (EER) tra 0,57% e 2,62% con 25 secondi di registrazione di allenamento a persona.
A 8 kbps, 25 secondi equivalgono a 200 KB. Moltiplicalo per 7 × 10 9 (7 miliardi di persone su questa Terra) e ottieni 1,4 petabyte.
Anche se può sembrare enorme, non è impossibile.
Il data center NSA in Utah si presume che abbia una capacità massima da 3 a 12 exabyte . Si stima che Google disponga di 10-15 exabyte di dati. Stiamo parlando di migliaia di petabyte qui.
Sebbene si tratti chiaramente di una stima, l'ordine di grandezza dovrebbe essere corretto.
Inoltre, non hai davvero bisogno di tenere tutte quelle registrazioni di allenamento. Dopo aver estratto le funzioni che desideri, potresti, almeno in teoria, eliminarle, il che significa che puoi risparmiare molto spazio. Inoltre, non stiamo considerando i progressi classificati nei sistemi di identificazione degli altoparlanti, che potrebbero essere possibili.
Non è chiaro se sia possibile farlo in tempo reale, a causa dell'elevato numero di impronte digitali, ma l'identificazione non in tempo reale sembra certamente fattibile anche se raccogli campioni da ogni persona vivente sulla Terra.
Conclusione. Anche se ovviamente non lo sappiamo per certo, l'identificazione automatica degli altoparlanti sulle telefonate, dati i campioni di addestramento di ogni persona sulla Terra, sembra un problema impegnativo ma tecnicamente fattibile per un'organizzazione molto avanzata . Non è chiaro se può essere fatto in tempo reale. L'unicità delle impronte digitali (o la loro mancanza) può essere un problema su una scala così ampia.