Articles

Varianza e deviazione standard

Sarebbe utile avere una misura di dispersione che abbia le seguenti proprietà:

  1. La misura dovrebbe essere proporzionale alla dispersione dei dati (piccola quando i dati sono raggruppati insieme, e grande quando i dati sono ampiamente sparsi).
  2. La misura dovrebbe essere indipendente dal numero di valori nella serie di dati (altrimenti, semplicemente prendendo più misure il valore aumenterebbe anche se la dispersione delle misure non stesse aumentando).
  3. La misura dovrebbe essere indipendente dalla media (dato che ora siamo interessati solo alla diffusione dei dati, non alla loro tendenza centrale).

Sia la varianza che la deviazione standard soddisfano questi tre criteri per insiemi di dati distribuiti normalmente (simmetrici, “curva a campana”).

La varianza (σ2) è una misura di quanto ogni valore nella serie di dati è lontano dalla media. Ecco come viene definita:

  1. Sottrai la media da ogni valore nei dati. Questo ti dà una misura della distanza di ogni valore dalla media.
  2. Eleva al quadrato ciascuna di queste distanze (in modo che siano tutti valori positivi), e aggiungi tutti i quadrati insieme.
  3. Dividi la somma dei quadrati per il numero di valori nella serie di dati.

La deviazione standard (σ) è semplicemente la radice quadrata (positiva) della varianza.

L’operatore di somma

Per scrivere l’equazione che definisce la varianza, è più semplice usare l’operatore di somma, Σ. L’operatore di somma è solo un modo abbreviato per scrivere: “Prendi la somma di un insieme di numeri”. Come esempio, mostreremo come potremmo usare l’operatore di somma per scrivere l’equazione per calcolare il valore medio dell’insieme di dati 1. Inizieremo assegnando ogni numero alla variabile X1-X6, in questo modo:

Insieme di dati 1
Variabile Valore
X1 3
X2 4
X3 4
X4 5
X5 6
X6 8

Pensate alla variabile (X) come la quantità misurata dal vostro esperimento, come il numero di foglie per pianta, e pensate al pedice come indicante il numero di prova (1-6). Per calcolare il numero medio di foglie per pianta, dobbiamo prima sommare i valori di ciascuna delle sei prove. Usando l’operatore di somma, lo scriveremo così:

Equazione per la somma di sei diversi valori di X usando il simbolo sigma

che è equivalente a:

Equazione che somma sei diversi valori di X

oppure:

Equazione che somma tre, quattro, quattro, cinque, sei e otto per ottenere trenta

Ovviamente la somma è molto più compatta da scrivere con l’operatore di somma. Ecco l’equazione per calcolare la media, μx, del nostro insieme di dati usando l’operatore di somma:

Equazione per il valore medio di X è uguale alla somma di tutti i valori di X diviso sei

L’equazione generale per calcolare la media, μ, di un insieme di numeri, X1 – XN, sarebbe scritta così:

Equazione per il valore medio di X è uguale alla somma di tutti i valori di X divisa per il numero di valori N

A volte, per semplicità, si lasciano fuori i pedici, come abbiamo fatto a destra, sopra. Eliminare i pedici rende le equazioni meno ingombranti, ma si capisce comunque che si stanno sommando tutti i valori di X.

L’equazione che definisce la varianza

Ora che sai come funziona l’operatore di somma, puoi capire l’equazione che definisce la varianza della popolazione (vedi nota alla fine di questa pagina sulla differenza tra varianza della popolazione e varianza del campione, e quale dovresti usare per il tuo progetto scientifico):

Equazione della varianza uguale alla somma dei valori X meno la media dei valori X al quadrato divisa per il numero di valori N

La varianza (σ2), è definita come la somma delle distanze al quadrato di ogni termine della distribuzione dalla media (μ), divisa per il numero di termini nella distribuzione (N).

C’è un modo più efficiente per calcolare la deviazione standard per un gruppo di numeri, mostrato nella seguente equazione:

Equazione della varianza uguale alla somma dei valori X al quadrato divisa per il numero di valori N meno la media dei valori X al quadrato

Si prende la somma dei quadrati dei termini della distribuzione e si divide per il numero di termini della distribuzione (N). Da questo, si sottrae il quadrato della media (μ2). È molto meno faticoso calcolare la deviazione standard in questo modo.

È facile dimostrare a se stessi che le due equazioni sono equivalenti. Inizia con la definizione di varianza (Equazione 1, sotto). Espandete l’espressione per squadrare la distanza di un termine dalla media (Equazione 2, sotto).

Cinque passi mostrano come l'equazione per la varianza viene semplificata moltiplicando gli esponenti

Ora separate i singoli termini dell’equazione (l’operatore di somma distribuisce sui termini tra parentesi, vedi Equazione 3, sopra). Nel termine finale, la somma di μ2/N, presa N volte, è solo Nμ2/N.

Poi, possiamo semplificare il secondo e il terzo termine dell’equazione 3. Nel secondo termine, si può vedere che ΣX/N è solo un altro modo di scrivere μ, la media dei termini. Quindi il secondo termine si semplifica a -2μ2 (confrontare le equazioni 3 e 4, sopra). Nel terzo termine, N/N è uguale a 1, quindi il terzo termine si semplifica a μ2 (confrontare le equazioni 3 e 4, sopra).

Infine, dall’equazione 4, si può vedere che il secondo e il terzo termine possono essere combinati, dandoci il risultato che stavamo cercando di dimostrare nell’equazione 5.

Come esempio, torniamo alle due distribuzioni con cui abbiamo iniziato la nostra discussione:

set di dati 1: 3, 4, 4, 5, 6, 8
set di dati 2: 1, 2, 4, 5, 7, 11 .

Quali sono la varianza e la deviazione standard di ogni serie di dati?

Costruiremo una tabella per calcolare i valori. Puoi usare una tabella simile per trovare la varianza e la deviazione standard dei risultati dei tuoi esperimenti.

Data Set N ΣX ΣX2 μ μ2 σ2 σ
1 6 30 166 5 25 2.67 1.63
2 6 30 216 5 25 11.00 3.32

Anche se entrambe le serie di dati hanno la stessa media (μ = 5), la varianza (σ2) della seconda serie di dati, 11,00, è poco più di quattro volte la varianza della prima serie di dati, 2,67. La deviazione standard (σ) è la radice quadrata della varianza, quindi la deviazione standard della seconda serie di dati, 3,32, è poco più di due volte la deviazione standard della prima serie di dati, 1,63.

Esempio di istogramma di frequenza delle piante con un certo numero di foglie e bassa dispersione

Un istogramma che mostra il numero di piante che hanno un certo numero di foglie. Tutte le piante hanno un numero diverso di foglie che va da 3 a 8 (tranne 2 piante che hanno 4 foglie). La differenza tra il numero più alto di foglie e il numero più basso di foglie è 5, quindi i dati hanno una varianza relativamente bassa.

Esempio di istogramma di frequenza delle piante con un certo numero di foglie e alta dispersione

Un istogramma che mostra il numero di piante che hanno un certo numero di foglie. Tutte le piante hanno un numero diverso di foglie che va da 1 a 11. La differenza tra la pianta con il più alto numero di foglie e il più basso numero di foglie è 10, quindi i dati hanno una varianza relativamente alta.

La varianza e la deviazione standard ci danno una misura numerica della dispersione di un insieme di dati. Queste misure sono utili per fare confronti tra serie di dati che vanno oltre le semplici impressioni visive.

Varianza della popolazione vs. Varianza del campione

Le equazioni date sopra ti mostrano come calcolare la varianza per un’intera popolazione. Tuttavia, quando fai un progetto scientifico, non avrai quasi mai accesso ai dati di un’intera popolazione. Per esempio, potresti essere in grado di misurare l’altezza di tutti nella tua classe, ma non puoi misurare l’altezza di tutti sulla Terra. Se state lanciando una pallina da ping-pong con una catapulta e misurate la distanza che percorre, in teoria potreste lanciare la pallina infinite volte. In entrambi i casi, i vostri dati sono solo un campione dell’intera popolazione. Questo significa che dovete usare una formula leggermente diversa per calcolare la varianza, con un termine N-1 nel denominatore invece di N:

Equazione per la varianza in una popolazione campione usando la popolazione N meno uno

Questa è nota come correzione di Bessel.

Esplora i nostri video scientifici

Sollevare il ghiaccio con il filo Attività STEM

L’uovo è crudo o cotto? Attività STEM

Fai un igrometro per misurare l’umidità – Attività STEM

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *