Come rendere anonimo il database degli indirizzi IP?

6

Devo eseguire le statistiche di connessione dell'indirizzo IP in modo anonimo perché i dati sono a rischio di sicurezza, quindi come faccio?

È così, che i numeri ip e le reti sono sostituiti da codici casuali e quando l'operatore sta selezionando le statistiche, può vedere solo i codici?

Tuttavia, il software di back-end ha lì i numeri IP, che sono usati per aggiornare le statistiche. Dovrei crittografare questi dati e generare i codici contemporaneamente?

Oppure, posso semplicemente comprimere i dati nel modo in cui raggruppo i numeri, ad es. sul loro paese, quindi ad es. Avrei un codice numerico IP appartenente al Regno Unito "hashedipaddr" = > "GB" e per questo gruppo casuale verranno assegnati più numeri IP.

    
posta Andrew Smith 04.08.2012 - 01:59
fonte

2 risposte

13

Se le statistiche che stai collezionando sono semplici come "Ho già visto questo IP?" quindi un Bloom Filter è l'ideale. Le ricerche e gli inserimenti di Bloom Filter sono entrambi O (1). Ma soprattutto non è possibile invertire un filtro di fioritura, nemmeno utilizzando la forza bruta a causa di un tasso di falsi-positivi inevitabile. Potresti avere una serie di filtri di fioritura per mettere l'indirizzo ip in categorie, come mettere tutte le ricerche geo-ip statunitensi nello stesso filtro di fioritura.

Una funzione di hash crittografica o crittografia asimmetrica non sarebbe l'ideale perché la sua forza bruta facile da utilizzare è uno spazio delle chiavi così piccolo.

    
risposta data 04.08.2012 - 19:25
fonte
5

Questo è un argomento piuttosto difficile. Non fornisci informazioni sufficienti su ciò che stai cercando di fare per fornirti una soluzione dettagliata, quindi dovrò attenermi ai principi generali:

  • L'anonimizzazione è difficile e imperfetta. Anche se puoi provare a oscurare alcuni dati (ad es. gli indirizzi IP), ti preghiamo di comprendere che questo è un argomento molto delicato. Molti tentativi di anonimizzazione si sono rivelati errati. Pertanto, anche se vale la pena provare a utilizzare metodi tecnici per rendere anonimi i dati il più possibile, si prega di essere preparati per la possibilità che possano essere imperfetti.

  • Approvazione sicura di norme e norme. Ottieni l'approvazione da parte di persone competenti a livello di policy della tua organizzazione per il rilascio del set di dati anonimi. Inoltre, richiedere e ottenere un accordo scritto e firmato dal destinatario che utilizzeranno i dati solo per determinati scopi specificati in anticipo; che non condivideranno i dati con gli altri; che useranno metodi ragionevoli per garantire l'accesso ai dati; che segnaleranno qualsiasi violazione della sicurezza a te; e che distruggeranno i dati sulla tua richiesta.

  • Applica metodi tecnici. Utilizza metodi tecnici per oscurare gli indirizzi IP e qualsiasi altra cosa che possa identificare gli utenti.

    • Indirizzi IP. Il metodo migliore per rendere anonimi gli indirizzi IP dipende dai dettagli complessi sull'uso previsto del set di dati e dal tipo di analisi che il destinatario deve essere in grado di fare. Il metodo più sicuro consiste nell'eliminare tutti gli indirizzi IP. Se questo rimuove troppe informazioni per la tua situazione, devi dirci di più sulla tua situazione.

      Altri metodi che sono stati proposti includono: sostituire ogni indirizzo IP con il suo hash SHA1 (questo è non sicuro, con solo 2 32 possibili indirizzi IP, è banale per invertire gli hash e recuperare gli indirizzi IP originali, quindi non utilizzare questo metodo); sostituendo ogni indirizzo IP con un hash SHA1 dell'indirizzo IP e qualche segreto crittografico a 128 bit (questo è molto meglio, anche se consente comunque di collegare tutti i flussi con lo stesso indirizzo IP, quindi se si rivelano i contenuti di un pacchetto, questo potrebbe identificare gli utenti e rivelare tutta la loro attività); hashing solo i primi 16 bit dell'indirizzo IP, sempre con una chiave crittografica (un po 'meglio ancora, ma potrebbe comunque compromettere la privacy degli utenti se si include il contenuto del pacchetto).

    • Altri dati a pacchetto. I non consiglia di includere qualsiasi contenuto del payload nel set di dati. Le intestazioni sono una cosa; i dati del payload sono molto più rischiosi.

  • Impara dagli altri. Suggerisco di leggere il materiale nella letteratura di ricerca pubblica su questo argomento. Ecco un buon articolo:

    Ci sono una serie di altri documenti di ricerca sull'argomento; cerca Google Scholar per i documenti che citano questo per trovare altro.

    Ti consiglio di leggere questa ricerca preliminare, poiché ha importanti lezioni per te. Impara dagli errori degli altri e dai successi degli altri: è molto più sicuro che commettere quegli stessi errori.

risposta data 06.08.2012 - 07:49
fonte

Leggi altre domande sui tag