Anonymize Database dei record di salute pubblica

Question

Anonymize Database dei record di salute pubblica

#1 da (2 voti)
#2 da (-1 voti)

-1

Sto lavorando a un progetto per rendere anonime le PHI nel nostro database dei record sanitari quando i database vengono copiati nei nostri ambienti di test. Attualmente, il database viene copiato e i campi nelle tabelle (nome, cognome, indirizzo, DOB, ecc.) Vengono sostituiti pseudo-casualmente (valore iniziale generato da datetime) con valori da un elenco di valori pre-generato. Per i database di piccole dimensioni va bene, ma quando si utilizzano database di grandi dimensioni con tabelle di grandi dimensioni, i valori vengono ripetuti abbastanza frequentemente e il processo di lavaggio richiede molto tempo. Il mio pensiero era di usare un algoritmo che scambiava i valori nella tabella, ma questo è un modo sicuro per rendere anonimo PHI? Quali tipi di algoritmi genererebbero una varianza sufficiente nei dati mantenendo comunque un tempo di elaborazione ridotto?

database algorithms healthcare

posta PrestonM 07.10.2015 - 20:40

fonte

2 risposte

Leggi altre domande sui tag database algorithms healthcare

nella linearizzazione del tipo scala spiega il primo passo nell'algoritmo [chiuso] Nuovo approccio DDD, orientato al contesto, funzionale ... nella costruzione del livello aziendale [chiuso]

score 2 · Answer 1

My thought was to use an algorithm that swaps values in the table, but is this a safe way to anonymize PHI?

No. Stai ancora perdendo informazioni sui tuoi clienti nell'ambiente di test.

Dovrebbe essere relativamente banale generare un algoritmo per generare nomi casuali (~ 100 nomi + ~ 100 cognomi porta a molte combinazioni), indirizzi (numero + albero + strada / strada / strada / ecc.)

For small databases this is fine, but when using very large databases with large tables values are repeated quite frequently and the scrubbing process takes a very long time.

Al di fuori del test delle prestazioni / carico, probabilmente non hai bisogno di grandi database per i tuoi ambienti di test. Può essere semplice come limitare il numero di righe (e le loro relazioni).

score -1 · Answer 2

Ho lavorato in un'azienda in cui facevamo quasi esattamente quello che stai facendo. Non so esattamente quale fosse il nostro algoritmo. So che abbiamo codificato i dati in modo che nessuno possa mai decodificarlo, ma non abbiamo modificato i dati stessi. Sostituire nomi, indirizzi e così via con i propri valori disinfetta i dati ed elimina ogni possibilità di individuare alcuni errori interessanti. I dati reali non sono perfetti e non posso dirti quanti bizzarri piccoli errori abbiamo trovato a causa di ciò.

Se vuoi sostituire tutto, devi solo generare il database che desideri, invece di provare a conformarne uno esistente.