In realtà, questi concetti sono concettualmente molto diversi. Parlerò di $ k $ -anonimità, dato che $ \ ell $ -diversity e $ t $ -closeness sono legati a $ k $ -anonimato, ma possono essere visti come misure aggiuntive sopra $ k $ -anonimato quella rappresentazione obiettivo omogenea dei valori dell'attributo sensibile all'interno di un gruppo e le loro frequenze relative rispettivamente.
L'idea dell'anonimato $ k $ consiste nel rimuovere le informazioni di identificazione primaria (come nomi, ssn, ecc.) da una tabella. Ma di solito rimangono ancora i cosiddetti semiidentificatori (come una combinazione di data di nascita, zip e genere) che potrebbero essere collegati a fonti esterne per consentire l'identificazione se questa tabella anonimizzata è collegata ad una fonte esterna (cioè un'altra tabella che contiene lo stesso e attriutes supplementari).
Quindi devi fare alcune ipotesi su come possa apparire questo quasi identificatore (cioè, la combinazione di attributi). Fatto ciò, si definisce $ k $ e si desidera che ogni combinazione di valori univoca di valori nel quasi identificatore visualizzato nella tabella mostri almeno $ k $ volte.
Se inizialmente non è il caso (che è molto probabile), allora si applica la soppressione degli attributi (si rimuove l'intero attributo se non ci sono possibilità di ottenere il $ k $ desiderato) e la generalizzazione (si definisce una gerarchia di generalizzazione su l'attributo e passa alla versione più generalizzata, ad esempio, hai $ ZIP="123456" $ - > $ ZIP="12345 *" $ e così via) fino a raggiungere $ K $. C'è un bunge di algoritmi per eseguire questo compito. Chiaramente, la generalizzazione è auspicabile, dal momento che si conservano maggiori informazioni.
Di conseguenza, le principali differenze tra questi approcci sono:
- Nelle parole chiave si presume che i dati vengano mantenuti privati, mentre si applica $ k $ -anonimato a dati che vengono poi resi pubblici, ad esempio dati medici per alcune elaborazioni statistiche.
- In $ k $ -anonimato lavori su un database (dati tabella) in cui rimuovi gli identificatori univoci prima dell'elaborazione con $ k $ -anonimizzazione (altrimenti $ k $ -anonimato non ha senso), mentre in honeywords hai $ ( u_i, H (u_i) $ coppie e mantenendo i valori univoci $ u_i $ (poiché i dati non sono resi pubblici).
- Honeywords introduce dati fasulli, mentre in $ k $ -anonimato si applica la soppressione e la generalizzazione degli attributi (sui dati originali) fino a raggiungere i $ k $ desiderati).
- Honeywords ha lo scopo di rilevare qualcosa (forzatura bruta), ma l'anonimizzazione $ k $ è una misura preventiva prima di rendere pubblico qualcosa (e non è destinato a rilevare qualcosa).