Stima se la differenza campionaria di riferimento è significativa

6

Per stimare la funzione più veloce in vari casi in un contesto non completamente deterministico, eseguo un esperimento chiamando l'uno o l'altro a caso e registrando la durata dell'operazione sul server di produzione.

Ho questo tipo di tabella:

(i numeri diventano più grandi più io aspetto)

Un problema nell'interpretazione di questi risultati è che la deviazione standard è grande (cioè varie condizioni casuali hanno portato a durate molto disperse).

Quindi sto cercando un modo per stimare quando la differenza tra gli insiemi di campioni è significativa o meno, una sorta di divergenza statistica o, detto diversamente, una stima della probabilità che la differenza osservata non sia solo casuale ( Forse la teoria di Shannon? La legge di Poisson?). Se è una best practice o norma accettata, sarebbe un bonus.

Tieni presente che non riesco a tenere in memoria tutti i campioni (in questo momento memorizzo solo il numero di operazioni, la somma delle durate e la somma dei loro quadrati in modo da poter calcolare la deviazione standard).

    
posta Denys Séguret 22.04.2016 - 17:47
fonte

2 risposte

1

La deviazione standard è utile solo se hai una distribuzione normale (o simile). Il problema con il campionamento è che spesso hai valori anomali o più di un picco - ad esempio nel tuo caso potresti avere:

  • Query che non sono state compilate e non colpiscono nessuna tabella in memoria.
  • Query che vengono compilate ma non colpiscono le tabelle in memoria.
  • Query che vengono compilate e colpiscono le tabelle in memoria.

Quindi potenzialmente potresti avere tre picchi, specialmente se il DB è vincolato dalla memoria e l'ordine di esecuzione è molto rilevante.

Suggerirei di disegnare un grafico di distribuzione per i peggiori trasgressori per capire come normalizzare questi dati. La rimozione dei valori anomali ridurrà la deviazione standard.

    
risposta data 04.01.2017 - 22:09
fonte
0

Puoi:

  1. rilascia alcuni dei grandi valori anomali per calcolare una deviazione standard più adeguata
  2. eseguire l'esperimento più a lungo in modo che i valori anomali più grandi diventino normali; in pratica cambia la scala dell'esperimento
risposta data 05.12.2016 - 19:45
fonte

Leggi altre domande sui tag