Sto cercando riferimenti sui test di ipotesi nella gestione del software. Ad esempio, potremmo chiederci se il "crunch time" porta ad un aumento del tasso di difetti - questo è un sorprendentemente difficile cosa da fare.
Ci sono molti domande su come misurare la qualità - questo non è quello che sto chiedendo. E ci sono libri come Kan che discutono le varie metriche di qualità e le loro utilità. Neanch'io lo chiedo. Voglio sapere come si applicano questi parametri per prendere decisioni.
es. supponiamo di decidere di andare con errori critici / KLOC. Uno dei problemi che dovremo affrontare è che questo non è un set di dati normalmente distribuito (quasi tutte le patch hanno zero errori critici). Inoltre, non è chiaro se vogliamo davvero esaminare la differenza nei mezzi. Quindi quale dovrebbe essere la nostra ipotesi alternativa?
(Nota: in base alle domande precedenti, suppongo che otterrò molte risposte che mi dicono che questa è una pessima idea. Va bene, ma io richiederei che si basi sui dati pubblicati, anziché sul tuo propria esperienza.)