Qual è un approccio ragionevole per i dati di deidentificazione?

13

Mi è stato chiesto da un cliente di deidentificare i dati PHI nel loro database e sto semplificando eccessivamente il processo o il mio cliente è eccessivamente paranoico. Forse puoi dirmi quale è il caso.

Il bisogno di de-identificazione di questo cliente è duplice. Quando perdono un cliente, hanno il diritto di conservare una copia deidentificata dei dati per scopi analitici. Inoltre, devono essere in grado di spostare i dati in ambienti di sviluppo / test in una forma deidentificata.

Ecco un esempio di cosa ci sarebbe nel database:
Nome
Cognome
genere
Data di nascita
Struttura
Data di ammissione Data di scarico
Punteggio di ammissione
Punteggio di scarica

Questi dati vengono utilizzati per l'analisi e alcuni dei fattori importanti sono:
genere
Età all'ammissione (data di ammissione - data di nascita)
Durata del soggiorno (Data di scarico - Data di ammissione)
Miglioramento (Punteggio di scarico - Punteggio di ammissione)

Ecco le mie domande ...

Se ho semplicemente randomizzato i nomi, non è abbastanza deidentificato per soddisfare i requisiti HIPAA?

Non pensavo così. Cosa succede se ho anche randomizzato il nome della struttura? Se conosco solo le altre informazioni, la data di nascita, il sesso, le date e i punteggi, è stato ragionevolmente deidentificato?

Ok, supponendo che la risposta sia no, e se poi scelgo una data di nascita casuale e aggiusti le date di ammissione e dimissione in modo che l'età al momento del ricovero e la durata del soggiorno siano sempre le stesse? Ad esempio, se il paziente è nato il 1 ° gennaio 1930 ed è stato ammesso il 1 ° gennaio 2011 e scaricato il 1/10/2011, la data di nascita potrebbe essere scelta casualmente come 5/5/1920 e le altre date saranno 5 / 5/2001 e 14/05/2001. L'età al momento del ricovero e la durata del soggiorno sarebbero uguali. Questo sarebbe ragionevolmente deidentificato?

Inoltre, un'altra domanda. Se il cliente ha un elenco di pazienti con la loro data di nascita in un foglio di calcolo Excel (nessun'altra informazione), tali dati saranno considerati PHI? Il mio cliente dice di sì, ma questo non ha senso perché nessuna informazione medica è legata a quei nomi.

Grazie per il tuo contributo!

Darvis

    
posta 22.11.2011 - 15:34
fonte

3 risposte

7

Io sinceramente non penso che abbiamo abbastanza informazioni - e suona come se non lo facessi tu - su cosa esattamente il tuo cliente desidera. Parte del tuo problema non è solo la deidentificazione, ma la deidentificazione che mantiene l'utilità dei dati. La seconda parte è complicata come la prima.

Ok, assuming the answer is no, what if I then choose a random birthdate and adjust the admission and discharge dates so that age at admission and length of stay are still the same? For example, if the patient was born on 1/1/1930 and was admitted on 1/1/2011 and discharged on 1/10/2011 the birthdate could be randomly chosen as 5/5/1920 and the other dates would be 5/5/2001 and 5/14/2001. The age at admission and length of stay would be the same. Would this be reasonably deidentified?

Ad esempio, questa soluzione, sebbene possa tecnicamente aver cambiato il PHI in modo che non possa essere rintracciata in un particolare individuo, ha rovinato qualsiasi utilità correlata al tempo dei dati che non è solo la differenza tra l'ammissione e la data di dimissione. Un'analisi dei dati non può, ad esempio, regolare per quale stagione dell'anno è stata ammessa l'ammissione (importante per molte malattie) o anche in quale anno è stata ammessa l'ammissione (importante per tutti i tipi di cose ).

Also, one other question. If the client has a list of patients with their birthdates in an excel spreadsheet (no other information), would that data be considered PHI? My client says yes, but that doesn't make sense because no medical information is tied to those names.

Non sappiamo chi sia il tuo cliente, ma considerando il sito su cui stai chiedendo questo, la risposta è assolutamente si . L'esistenza di questi record implica alcune informazioni mediche. Considerare tre circostanze, di rischio variabile per il paziente se esposto:

  1. Il brevetto X è sulla lista della clinica Y. Devono essere andati lì.
  2. Il paziente X si trova nell'elenco della clinica Y. Quella clinica fa lo screening STI. Mi chiedo cosa stavano combinando?
  3. Il paziente X si trova nell'elenco della clinica Y. Quella clinica sta aiutando a gestire uno studio sulla prevalenza dell'HIV tra i lavoratori del sesso ad alto rischio nella zona. Non è interessante ...

Tutti questi possono essere assemblati con nient'altro che un nome e una data di nascita, e l'esistenza della lista stessa . "Si presenta nei registri di un operatore sanitario" sono informazioni mediche.

    
risposta data 15.12.2011 - 06:06
fonte
4

Il modo in cui leggiamo l'attuale HIPAA / HITECH è che due pezzi di informazione sono considerati PHI e devono essere protetti.

Quindi sì, il foglio di calcolo con fname, lname e DoB è totalmente PHI e dovrebbe essere protetto. Solo perché non ci sono dati di reclamo non rende i dati non PHI.

Detto questo, abbiamo i nostri dati "crittografati a riposo" con Transparent Data Encryption utilizzando SQL2008R2. È sufficiente che la compagnia abbia deciso di coprirci per HIPAA / HITECH. Noi disinfettiamo i dati per i test, ma non per la produzione.

    
risposta data 22.11.2011 - 16:23
fonte
3

Come nota aggiuntiva, potrebbe esserci un trucchetto in futuro se si sostituiscono casualmente nomi e date di nascita. Potresti voler aggiungere un identificatore alla tabella per indicare che hai eseguito la randomizzazione in modo da non clobare i dati buoni o considerare vecchi i dati validi.

    
risposta data 22.11.2011 - 20:38
fonte

Leggi altre domande sui tag