Bontà di adattamento
I seguenti sono esempi che si presentano nel contesto dei dati categorici.
Test del chi-quadrato di PearsonModifica
Il test del chi-quadrato di Pearson usa una misura di bontà dell’adattamento che è la somma delle differenze tra le frequenze dei risultati osservati e quelli attesi (cioè i conteggi delle osservazioni), ciascuno al quadrato e diviso per l’aspettativa:
χ 2 = ∑ i = 1 n ( O i – E i ) E i 2 {\displaystyle \chi ^{2}=somma _{i=1}^{n}{\frac {(O_{i}-E_{i})}{E_{i}}}^{2}}
dove:
Oi = un conteggio osservato per il bin i Ei = un conteggio atteso per il bin i, asserito dall’ipotesi nulla.
La frequenza attesa è calcolata da:
E i = ( F ( Y u ) – F ( Y l ) ) N {\displaystyle E_{i},=,{\bigg (}F(Y_{u})\,-\,F(Y_{l}){\bigg )},N}
dove:
F = la funzione di distribuzione cumulativa per la distribuzione di probabilità in esame. Yu = il limite superiore per la classe i, Yl = il limite inferiore per la classe i, e N = la dimensione del campione
Il valore risultante può essere confrontato con una distribuzione chi-quadrato per determinare la bontà dell’adattamento. La distribuzione chi-quadrato ha (k – c) gradi di libertà, dove k è il numero di celle non vuote e c è il numero di parametri stimati (compresi i parametri di posizione e di scala e i parametri di forma) per la distribuzione più uno. Per esempio, per una distribuzione Weibull a 3 parametri, c = 4.
Esempio: frequenze uguali di uomini e donneModifica
Per esempio, per verificare l’ipotesi che un campione casuale di 100 persone sia stato estratto da una popolazione in cui uomini e donne sono uguali in frequenza, il numero osservato di uomini e donne verrebbe confrontato con le frequenze teoriche di 50 uomini e 50 donne. Se ci fossero 44 uomini nel campione e 56 donne, allora
χ 2 = ( 44 – 50 ) 2 50 + ( 56 – 50 ) 2 50 = 1,44 {\displaystyle \chi ^{2}={(44-50)^{2} \oltre il 50}+(56-50)^{2} \oltre il 50}=1.44}
Se l’ipotesi nulla è vera (cioè, uomini e donne sono scelti con uguale probabilità nel campione), il test statistico sarà tratto da una distribuzione chi-quadrata con un grado di libertà. Anche se ci si potrebbe aspettare due gradi di libertà (uno ciascuno per gli uomini e le donne), dobbiamo tenere conto che il numero totale di uomini e donne è limitato (100), e quindi c’è solo un grado di libertà (2 – 1). In altre parole, se il conteggio degli uomini è noto, il conteggio delle donne è determinato, e viceversa.
La consultazione della distribuzione chi-quadrato per 1 grado di libertà mostra che la probabilità di osservare questa differenza (o una differenza più estrema di questa) se uomini e donne sono ugualmente numerosi nella popolazione è circa 0,23. Questa probabilità è superiore ai criteri convenzionali per la significatività statistica (.001-.05), quindi normalmente non rifiuteremmo l’ipotesi nulla che il numero di uomini nella popolazione sia uguale al numero di donne (cioè considereremmo il nostro campione all’interno di ciò che ci aspetteremmo per un rapporto maschi/femmine 50/50.)
Nota l’assunzione che il meccanismo che ha generato il campione sia casuale, nel senso di selezione casuale indipendente con la stessa probabilità, qui 0,5 sia per i maschi che per le femmine. Se, per esempio, ognuno dei 44 maschi selezionati ha portato un compagno maschio, e ognuna delle 56 femmine ha portato un compagno femmina, ogni ( O i – E i ) 2 {\textstyle {(O_{i}-E_{i})}^{2}} aumenterà di un fattore 4, mentre ogni E i {\textstyle E_{i}} aumenterà di un fattore 2. Il valore della statistica raddoppierà a 2,88. Conoscendo questo meccanismo sottostante, dovremmo ovviamente contare le coppie. In generale, il meccanismo, se non è difendibilmente casuale, non sarà noto. La distribuzione a cui la statistica del test deve essere riferita può, di conseguenza, essere molto diversa dal chi-quadrato.
Caso binomialeEdit
Un esperimento binomiale è una sequenza di prove indipendenti in cui le prove possono dare uno dei due risultati, successo o fallimento. Ci sono n prove, ciascuna con probabilità di successo, indicata con p. A condizione che npi ≫ 1 per ogni i (dove i = 1, 2, …, k), allora
Questo ha approssimativamente una distribuzione chi-quadrata con k – 1 gradi di libertà. Il fatto che ci siano k – 1 gradi di libertà è una conseguenza della restrizione ∑ N i = n {displaystyle \sum N_{i}=n} . Sappiamo che ci sono k conteggi di cellule osservate, tuttavia, una volta che qualsiasi k – 1 è noto, il rimanente è determinato in modo univoco. Fondamentalmente, si può dire che ci sono solo k – 1 conteggi di cellule liberamente determinati, quindi k – 1 gradi di libertà.
G-testEdit
I G-test sono test del rapporto di verosimiglianza della significatività statistica che sono sempre più utilizzati in situazioni in cui i test chi-quadrato di Pearson erano precedentemente raccomandati.
La formula generale per G è
G = 2 ∑ i O i ⋅ ln ( O i E i ) , {\displaystyle G=2\sum _{i}{O_{i} \cdot \ln \left({\frac {O_{i}}{E_{i}}}}right)},
dove N {\textstyle N} è il numero totale di osservazioni.
I test G sono stati raccomandati almeno dall’edizione del 1981 del popolare libro di testo di statistica di Robert R. Sokal e F. James Rohlf.