Anonymize Database dei record di salute pubblica

-1

Sto lavorando a un progetto per rendere anonime le PHI nel nostro database dei record sanitari quando i database vengono copiati nei nostri ambienti di test. Attualmente, il database viene copiato e i campi nelle tabelle (nome, cognome, indirizzo, DOB, ecc.) Vengono sostituiti pseudo-casualmente (valore iniziale generato da datetime) con valori da un elenco di valori pre-generato. Per i database di piccole dimensioni va bene, ma quando si utilizzano database di grandi dimensioni con tabelle di grandi dimensioni, i valori vengono ripetuti abbastanza frequentemente e il processo di lavaggio richiede molto tempo. Il mio pensiero era di usare un algoritmo che scambiava i valori nella tabella, ma questo è un modo sicuro per rendere anonimo PHI? Quali tipi di algoritmi genererebbero una varianza sufficiente nei dati mantenendo comunque un tempo di elaborazione ridotto?

    
posta PrestonM 07.10.2015 - 22:40
fonte

2 risposte

2

My thought was to use an algorithm that swaps values in the table, but is this a safe way to anonymize PHI?

No. Stai ancora perdendo informazioni sui tuoi clienti nell'ambiente di test.

Dovrebbe essere relativamente banale generare un algoritmo per generare nomi casuali (~ 100 nomi + ~ 100 cognomi porta a molte combinazioni), indirizzi (numero + albero + strada / strada / strada / ecc.)

For small databases this is fine, but when using very large databases with large tables values are repeated quite frequently and the scrubbing process takes a very long time.

Al di fuori del test delle prestazioni / carico, probabilmente non hai bisogno di grandi database per i tuoi ambienti di test. Può essere semplice come limitare il numero di righe (e le loro relazioni).

    
risposta data 07.10.2015 - 23:41
fonte
-1

Ho lavorato in un'azienda in cui facevamo quasi esattamente quello che stai facendo. Non so esattamente quale fosse il nostro algoritmo. So che abbiamo codificato i dati in modo che nessuno possa mai decodificarlo, ma non abbiamo modificato i dati stessi. Sostituire nomi, indirizzi e così via con i propri valori disinfetta i dati ed elimina ogni possibilità di individuare alcuni errori interessanti. I dati reali non sono perfetti e non posso dirti quanti bizzarri piccoli errori abbiamo trovato a causa di ciò.

Se vuoi sostituire tutto, devi solo generare il database che desideri, invece di provare a conformarne uno esistente.

    
risposta data 08.10.2015 - 00:27
fonte

Leggi altre domande sui tag