Is a random sample from a range of uniformly distributed values still uniformly distributed?
Se ti do un dado bianco a 6 facce e ti dico di scrivere valori su di esso mentre li faccio rotolare sul mio dado normale a 6 facce, questo potrebbe accadere:
1,2,3,4,5,6
E complimenti hai avuto un normale dado onesto. Ma se avessi rotolato:
1,2,3,4,5, 5
Scusa ma il tuo dado non è giusto. Questi valori non sono normalmente distribuiti. Anche se il mio dado era giusto e i suoi valori facciali sono normalmente distribuiti.
Let's say I have a random number generator from which I am requesting values for event A and event B. Both events occur at random intervals but event A happens much more often than event B and I would still want both the values sampled for event A as well as values sampled for event B to be uniformly random in their own right.
Questo crea la possibilità di un errore di conteggio. A condizione che tu capisca che il tuo campione è uno stato al momento del campionamento e non come un numero di eventi, la discrepanza tra l'evento A e l'evento B va bene. Quello che hai fatto è intrappolare il tempo nei tuoi dati. Se hai bisogno di sapere quante volte sono accaduti gli eventi non puoi ottenerli in questo modo.
I can imagine this would be no issue for a truly random number generator, but what about an algorithmical pseudo random generator, let's say java.util.Random? Would I be safer to use separate instances of the generator for event A and event B?
Un generatore pseudo-casuale algoritmico non sarà un problema qui fintanto che è giusto. Potresti usare le cifre di PI. Non è necessario essere imprevedibili qui. Solo uniforme
La stessa ragione per cui non è un problema che il mio dado sembra sempre tirare i numeri in ordine. Il test per l'uniformità non interessa a questo.
Quindi capisci che cosa produce il tuo campione ha tutto il diritto di non essere uniforme anche se ciò che lo ha prodotto è stato uniforme. Più grande è il campione, anche se più vicino dovrebbe tendere ad essere rappresentativo dei dati. Questa è la legge dei grandi numeri. È una tendenza molto potente ma il test per una distribuzione uniforme è molto schizzinoso. Tanto che raramente lo vedi nei dati. Solo in costrutti idealizzati.
Quello che puoi fare è guardare abbastanza rotoli del mio dado "giusto" e dire quanto è probabile che mentisca sul fatto che sia giusto. Mentre ciò che produce non deve essere uniforme, sembra sospetto se un gran numero di rotoli non tende all'uniformità.
In parole povere, solo così tante volte posso tirare qualsiasi cosa tranne un 6 prima che tu pensi che sia più probabile che ti stia scherzando.