Esempio:
Un certo test viene eseguito cinque volte nella build attuale, per confrontarlo con la versione 1.0, dove lo stesso test è stato eseguito anche cinque volte.
Build 1.4
22 ms, 26 ms, 23 ms, 25 ms, 20 ms
Versione 1.0
15 ms, 18 ms, 16 ms, 20 ms, 17 ms
Domanda
Il requisito è che Build 1.4 non sia peggio della versione 1.0.
Come potrei testarlo? Ho visto diversi metodi usati, tra cui il semplice confronto medio e T-Test statistici (assumendo le normali distribuzioni).
Nessuno degli strumenti, vale a dire i framework di test e i sistemi CI, ho trovato qualcosa che aiuti a calcolare e superare / fallire tali test. Perché? I test delle prestazioni sembrano essere popolari, quindi come possono approvarli o rifiutarli?
Spesso è troppo impraticabile o addirittura impossibile entrare e determinare manualmente intervalli o distribuzioni accettabili per ogni test.