Le parole chiave sono diverse dal k-anonimato?

3

Ari Juels e Ron Rivest propongono un technqiue per rafforzare i file di password chiamati honeywords . Fondamentalmente per ogni password valida inseriscono password false (honeywords) e se qualcuno prova a usare la forza bruta può essere rilevato.

L'idea di base di nascondere i dati reali tra i dati falsi è il punto cruciale di k-anonimato, l-diversity e altri concetti relativi alla privacy dei dati di data mining.

Qualche idea su honeywords è uguale al k-anonimato? o sono due distintamente diversi?

    
posta sashank 06.11.2013 - 04:16
fonte

2 risposte

2

In realtà, questi concetti sono concettualmente molto diversi. Parlerò di $ k $ -anonimità, dato che $ \ ell $ -diversity e $ t $ -closeness sono legati a $ k $ -anonimato, ma possono essere visti come misure aggiuntive sopra $ k $ -anonimato quella rappresentazione obiettivo omogenea dei valori dell'attributo sensibile all'interno di un gruppo e le loro frequenze relative rispettivamente.

L'idea dell'anonimato $ k $ consiste nel rimuovere le informazioni di identificazione primaria (come nomi, ssn, ecc.) da una tabella. Ma di solito rimangono ancora i cosiddetti semiidentificatori (come una combinazione di data di nascita, zip e genere) che potrebbero essere collegati a fonti esterne per consentire l'identificazione se questa tabella anonimizzata è collegata ad una fonte esterna (cioè un'altra tabella che contiene lo stesso e attriutes supplementari).

Quindi devi fare alcune ipotesi su come possa apparire questo quasi identificatore (cioè, la combinazione di attributi). Fatto ciò, si definisce $ k $ e si desidera che ogni combinazione di valori univoca di valori nel quasi identificatore visualizzato nella tabella mostri almeno $ k $ volte.

Se inizialmente non è il caso (che è molto probabile), allora si applica la soppressione degli attributi (si rimuove l'intero attributo se non ci sono possibilità di ottenere il $ k $ desiderato) e la generalizzazione (si definisce una gerarchia di generalizzazione su l'attributo e passa alla versione più generalizzata, ad esempio, hai $ ZIP="123456" $ - > $ ZIP="12345 *" $ e così via) fino a raggiungere $ K $. C'è un bunge di algoritmi per eseguire questo compito. Chiaramente, la generalizzazione è auspicabile, dal momento che si conservano maggiori informazioni.

Di conseguenza, le principali differenze tra questi approcci sono:

  • Nelle parole chiave si presume che i dati vengano mantenuti privati, mentre si applica $ k $ -anonimato a dati che vengono poi resi pubblici, ad esempio dati medici per alcune elaborazioni statistiche.
  • In $ k $ -anonimato lavori su un database (dati tabella) in cui rimuovi gli identificatori univoci prima dell'elaborazione con $ k $ -anonimizzazione (altrimenti $ k $ -anonimato non ha senso), mentre in honeywords hai $ ( u_i, H (u_i) $ coppie e mantenendo i valori univoci $ u_i $ (poiché i dati non sono resi pubblici).
  • Honeywords introduce dati fasulli, mentre in $ k $ -anonimato si applica la soppressione e la generalizzazione degli attributi (sui dati originali) fino a raggiungere i $ k $ desiderati).
  • Honeywords ha lo scopo di rilevare qualcosa (forzatura bruta), ma l'anonimizzazione $ k $ è una misura preventiva prima di rendere pubblico qualcosa (e non è destinato a rilevare qualcosa).
risposta data 06.11.2013 - 08:58
fonte
1

In honeywords "falsi" i dati con l'intento di confondere l'attaccante. Nell'anonimato k ometti o unisci i dati per fare lo stesso. Se dovessimo ignorare il diverso ambito applicativo per ciascuno, direi che i due sono piuttosto simili, ma solo in un modo astratto.

Suppongo che potresti usare honeydata in un set di dati k-anonimo (in modo statisticamente neutro), e aspettare di vedere se qualcuno va a cercare il sig. Fook Yu. Sarebbe divertente.

    
risposta data 06.11.2013 - 05:47
fonte

Leggi altre domande sui tag