Stima se la differenza campionaria di riferimento è significativa

Question

Stima se la differenza campionaria di riferimento è significativa

#1 da (1 voti)
#2 da (0 voti)

6

Per stimare la funzione più veloce in vari casi in un contesto non completamente deterministico, eseguo un esperimento chiamando l'uno o l'altro a caso e registrando la durata dell'operazione sul server di produzione.

Ho questo tipo di tabella:

(i numeri diventano più grandi più io aspetto)

Un problema nell'interpretazione di questi risultati è che la deviazione standard è grande (cioè varie condizioni casuali hanno portato a durate molto disperse).

Quindi sto cercando un modo per stimare quando la differenza tra gli insiemi di campioni è significativa o meno, una sorta di divergenza statistica o, detto diversamente, una stima della probabilità che la differenza osservata non sia solo casuale ( Forse la teoria di Shannon? La legge di Poisson?). Se è una best practice o norma accettata, sarebbe un bonus.

Tieni presente che non riesco a tenere in memoria tutti i campioni (in questo momento memorizzo solo il numero di operazioni, la somma delle durate e la somma dei loro quadrati in modo da poter calcolare la deviazione standard).

performance benchmarking statistics

posta Denys Séguret 22.04.2016 - 15:47

fonte

2 risposte

Leggi altre domande sui tag performance benchmarking statistics

Architettura rilassata DAL o BLL anemico? In che modo "ripeti x = x: ripeti x" restituisci una lista in Haskell?

score 1 · Answer 1

La deviazione standard è utile solo se hai una distribuzione normale (o simile). Il problema con il campionamento è che spesso hai valori anomali o più di un picco - ad esempio nel tuo caso potresti avere:

Query che non sono state compilate e non colpiscono nessuna tabella in memoria.
Query che vengono compilate ma non colpiscono le tabelle in memoria.
Query che vengono compilate e colpiscono le tabelle in memoria.

Quindi potenzialmente potresti avere tre picchi, specialmente se il DB è vincolato dalla memoria e l'ordine di esecuzione è molto rilevante.

Suggerirei di disegnare un grafico di distribuzione per i peggiori trasgressori per capire come normalizzare questi dati. La rimozione dei valori anomali ridurrà la deviazione standard.

score 0 · Answer 2

0

Puoi:

rilascia alcuni dei grandi valori anomali per calcolare una deviazione standard più adeguata
eseguire l'esperimento più a lungo in modo che i valori anomali più grandi diventino normali; in pratica cambia la scala dell'esperimento

risposta data 05.12.2016 - 18:45

fonte