Consigli sulla riconciliazione dei dati discordanti

0

Lasciatemi supportare la mia domanda con uno scenario rapido.

Stiamo scrivendo un'app per la pianificazione del pasto in famiglia. Produrremo piani giornalieri con un obiettivo calorico obiettivo e pasti per realizzarlo per la nostra famiglia nucleare. Il nostro obiettivo calorico sarà calcolato per ogni persona dai suoi attributi (sesso, età, peso, livello di attività).

L'attributo peso è l'esempio più semplice qui.

Quando papà (il nerd fascista che sta infliggendo questo sulla sua famiglia) usa per primo l'applicazione che getta valori approssimativi in essa per la figlia. Lui pensa che lei sia di 5'2 "(157 cm) e 125 libbre (56 kg) .Il giorno dopo la mamma si siede per generare il menu e ripensa a quello che ha fatto il papà, fuma silenziosamente che non può mai ricordare nulla della famiglia e dice che il valore è veramente di 118 libbre!

Questa è la prima introduzione della discordia. Sembra, in questo scenario, che la mamma sia probabilmente più corretta di papà. Sebbene entrambi siano solo un'approssimazione del valore reale.

Il giorno dopo la cara Figlia decide di usare il programma e vede il suo peso elencato. Con la vanità solo un adolescente potrebbe radunare lei cambia il peso a 110 libbre. Più tardi quel giorno la mamma ritorna a casa da una visita medica richiesta dalla figlia e decide che sarebbe una buona idea aggiornare il peso della figlia nel programma. Urrà, un altro valore, questa volta 117 libbre.

Come riconciliare questi punti dati? Errore di misura, fiducia nelle parti, pregiudizi e altro ancora tutti confondono i dati. In un mondo idealizzato avremmo un'autorità di peso di una certa natura che fornisce l'unica verità. Che ne dici del nostro mondo?

E la ciliegina sulla torta è che questo singolo punto dati cambia nel tempo.

Come avete risolto o gestito questo conflitto?

    
posta Justin 20.11.2012 - 22:21
fonte

2 risposte

3

Visualizza i tuoi dati allo stesso modo in cui i prezzi di borsa sono comunemente visti; come una combinazione lineare di una funzione uniforme (i tuoi dati effettivi) e fluttuazioni casuali. Calcola la media mobile dei tuoi dati con un numero appropriato di campioni storici e presume che si tratti dei dati che desideri realmente.

Considerati sia i dati effettivi y sia il% medioy', puoi considerare le fluttuazioni y-y' come un processo stocastico. Questo processo ha proprietà come deviazione standard e varianza, fornendo informazioni utili sui dati in termini di precisione. Queste informazioni potrebbero essere utilizzate per scartare alcuni punti dati (quelli per i quali la fluttuazione è maggiore della deviazione standard, ad esempio), consentendo di ricalcolare la media mobile da dati più accurati o persino utilizzando direttamente i dati, ma questo potrebbe non essere necessariamente essere una buona idea.

In questo processo, determinare un buon numero di campioni da utilizzare nella media mobile è il problema più difficile. Dipende molto dalla frequenza e dalla regolarità dei tuoi dati, ma anche dal fatto che ti aspetti che i tuoi dati effettivi fluttuino molto. Per il peso umano con campioni ogni giorno il numero di campioni può essere abbastanza grande (14 forse). Esistono diverse varianti ponderate della media mobile che potrebbero essere utilizzate.

    
risposta data 21.11.2012 - 00:42
fonte
0

Ci sono due modi in cui questi dati possono cambiare, come la vedo io: correzioni (dove è stato inserito il valore sbagliato) e variazioni naturali nel tempo (perché il peso delle persone cambia). Quindi potresti non voler registrare weight come un singolo valore, ma forse registrarlo come weight_measure_at_point_in_time che ha un valore per il peso, e un altro per la data in cui è stato registrato. In questo modo conosci le modifiche di misura e conosci quando . Quando esegui calcoli con questo valore, puoi scegliere di esaminare solo la misura più recente e confrontare calcoli simili con misurazioni precedenti.

Se vuoi iniziare a controllare la tabella, puoi farlo anche impostando i campi di controllo che registrano chi ha modificato il valore misurato, quando l'hanno fatto, e perché (e memorizza anche tutti i record per la misurazione in modo da avere una cronologia di tutte le modifiche). Se vuoi calcolare pesi sulla misurazione modificata in base a chi l'ha fatto, devi decidere in qualche modo quali modifiche sono più autorevoli e quanto peso portano questi cambiamenti (e non vorrei essere nei paraggi quando hai questa discussione con tutti, su quanto o quanto poco sia importante la loro opinione). Anche questo può essere fatto, puoi utilizzare tutti i pesi per diverse versioni di una misurazione in un singolo punto nel tempo per calcolare una misura "finale", ma ciò rende tutto un po 'più complicato.

    
risposta data 20.11.2012 - 23:09
fonte

Leggi altre domande sui tag