Articles

Variance et écart-type

Il serait utile d’avoir une mesure de la dispersion qui a les propriétés suivantes :

  1. La mesure devrait être proportionnelle à la dispersion des données (petite lorsque les données sont regroupées, et grande lorsque les données sont largement dispersées).
  2. La mesure doit être indépendante du nombre de valeurs dans l’ensemble de données (sinon, simplement en prenant plus de mesures, la valeur augmenterait même si la dispersion des mesures n’augmente pas).
  3. La mesure doit être indépendante de la moyenne (puisque maintenant nous nous intéressons uniquement à la dispersion des données, et non à leur tendance centrale).

La variance et l’écart-type répondent tous deux à ces trois critères pour les ensembles de données normalement distribués (symétriques, en « courbe en cloche »).

La variance (σ2) est une mesure de la distance entre chaque valeur de l’ensemble de données et la moyenne. Voici comment elle est définie :

  1. Soustraire la moyenne de chaque valeur dans les données. Cela vous donne une mesure de la distance de chaque valeur par rapport à la moyenne.
  2. Dans le carré de chacune de ces distances (afin qu’elles soient toutes des valeurs positives), et ajoutez tous les carrés ensemble.
  3. Divisez la somme des carrés par le nombre de valeurs dans l’ensemble de données.

L’écart-type (σ) est simplement la racine carrée (positive) de la variance.

L’opérateur de sommation

Pour écrire l’équation qui définit la variance, le plus simple est d’utiliser l’opérateur de sommation, Σ. L’opérateur de sommation n’est qu’une façon abrégée d’écrire : « Prendre la somme d’un ensemble de nombres ». À titre d’exemple, nous allons montrer comment utiliser l’opérateur de sommation pour écrire l’équation permettant de calculer la valeur moyenne de l’ensemble de données 1. Nous commencerons par affecter chaque nombre à la variable, X1-X6, comme ceci :

.

.

Ensemble de données 1
Variable Valeur
X1 3
X2 4
X3 4 X4 5 5
X5 6
X6 8

Pensez à la variable (X) comme étant la quantité mesurée. (X) comme la quantité mesurée dans votre expérience, par exemple le nombre de feuilles par plante, et considérez l’indice comme le numéro de l’essai (1-6). Pour calculer le nombre moyen de feuilles par plante, nous devons d’abord additionner les valeurs de chacun des six essais. En utilisant l’opérateur de sommation, nous l’écririons comme suit :

Equation pour la sommation de six valeurs différentes de X en utilisant le symbole sigma

ce qui est équivalent à :

Equation de la somme de six valeurs différentes de X

ou :

Equation ajoutant trois, quatre, quatre, cinq, six et huit pour égaler trente

La somme est évidemment beaucoup plus compacte à écrire avec l’opérateur de sommation. Voici l’équation pour calculer la moyenne, μx, de notre ensemble de données en utilisant l’opérateur de sommation:

Equation pour la valeur moyenne de X est égale à la somme de toutes les valeurs de X divisée par six

L’équation générale pour calculer la moyenne, μ, d’un ensemble de nombres, X1 – XN, s’écrirait comme suit :

Equation de la valeur moyenne de X est égale à la somme de toutes les valeurs de X divisée par le nombre de valeurs N

Parfois, pour simplifier, on laisse de côté les indices, comme nous l’avons fait à droite, ci-dessus. Le fait de supprimer les indices rend les équations moins encombrées, mais il est toujours entendu que vous additionnez toutes les valeurs de X.

L’équation définissant la variance

Maintenant que vous savez comment fonctionne l’opérateur de sommation, vous pouvez comprendre l’équation qui définit la variance de la population (voir la note à la fin de cette page sur la différence entre la variance de la population et la variance de l’échantillon, et laquelle vous devriez utiliser pour votre projet scientifique) :

Equation de la variance égale à la somme des valeurs X moins la moyenne des valeurs X au carré divisée par le nombre de valeurs N

La variance (σ2), est définie comme la somme des distances au carré de chaque terme de la distribution par rapport à la moyenne (μ), divisée par le nombre de termes de la distribution (N).

Il existe un moyen plus efficace de calculer l’écart type d’un groupe de nombres, illustré par l’équation suivante :

Equation de la variance égale à la somme de X valeurs au carré divisée par le nombre de valeurs N moins la moyenne de X valeurs au carré

Vous prenez la somme des carrés des termes de la distribution, et vous la divisez par le nombre de termes de la distribution (N). De cette somme, vous soustrayez le carré de la moyenne (μ2). C’est beaucoup moins de travail de calculer l’écart type de cette façon.

Il est facile de vous prouver que les deux équations sont équivalentes. Commencez par la définition de la variance (équation 1, ci-dessous). Développez l’expression pour élever au carré la distance d’un terme par rapport à la moyenne (équation 2, ci-dessous).

Cinq étapes montrent comment l'équation de la variance est simplifiée en multipliant les exposants

Séparer maintenant les termes individuels de l’équation (l’opérateur de sommation se répartit sur les termes entre parenthèses, voir l’équation 3, ci-dessus). Dans le dernier terme, la somme de μ2/N, prise N fois, est juste Nμ2/N.

Puis, nous pouvons simplifier les deuxième et troisième termes de l’équation 3. Dans le deuxième terme, vous pouvez voir que ΣX/N est juste une autre façon d’écrire μ, la moyenne des termes. Le deuxième terme se simplifie donc en -2μ2 (comparez les équations 3 et 4, ci-dessus). Dans le troisième terme, N/N est égal à 1, donc le troisième terme se simplifie en μ2 (comparez les équations 3 et 4, ci-dessus).

Enfin, à partir de l’équation 4, vous pouvez voir que les deuxième et troisième termes peuvent être combinés, nous donnant le résultat que nous essayions de prouver dans l’équation 5.

À titre d’exemple, revenons aux deux distributions avec lesquelles nous avons commencé notre discussion :

ensemble de données 1 : 3, 4, 4, 5, 6, 8
ensemble de données 2 : 1, 2, 4, 5, 7, 11 .

Quels sont la variance et l’écart-type de chaque ensemble de données ?

Nous allons construire un tableau pour calculer ces valeurs. Vous pouvez utiliser un tableau similaire pour trouver la variance et l’écart-type des résultats de vos expériences.

.

Ensemble de données N ΣX ΣX2 μ μ2 σ2 σ
1 6 30 166 5 25 2.67 1,63
2 6 30 216 5 25 11,00 3.32

Bien que les deux ensembles de données aient la même moyenne (μ = 5), la variance (σ2) du deuxième ensemble de données, 11,00, est un peu plus de quatre fois supérieure à la variance du premier ensemble de données, 2,67. L’écart type (σ) est la racine carrée de la variance, donc l’écart type du deuxième ensemble de données, 3,32, est un peu plus de deux fois l’écart type du premier ensemble de données, 1,63.

Exemple d'histogramme de fréquence des plantes ayant un certain nombre de feuilles et une faible dispersion

Histogramme montrant le nombre de plantes qui ont un certain nombre de feuilles. Toutes les plantes ont un nombre différent de feuilles allant de 3 à 8 (sauf 2 plantes qui ont 4 feuilles). La différence entre le nombre de feuilles le plus élevé et le nombre de feuilles le plus bas est de 5, les données ont donc une variance relativement faible.

Exemple d'histogramme de fréquence des plantes ayant un certain nombre de feuilles et une dispersion élevée

Histogramme montrant le nombre de plantes qui ont un certain nombre de feuilles. Toutes les plantes ont un nombre de feuilles différent, allant de 1 à 11. La différence entre la plante ayant le nombre de feuilles le plus élevé et le nombre de feuilles le plus bas est de 10, les données ont donc une variance relativement élevée.

La variance et l’écart-type nous donnent une mesure numérique de la dispersion d’un ensemble de données. Ces mesures sont utiles pour faire des comparaisons entre des ensembles de données qui vont au-delà des simples impressions visuelles.

Variance de la population vs. variance de l’échantillon

Les équations données ci-dessus vous montrent comment calculer la variance pour une population entière. Cependant, lors d’un projet scientifique, vous n’aurez presque jamais accès aux données d’une population entière. Par exemple, vous pourriez être en mesure de mesurer la taille de tous les élèves de votre classe, mais vous ne pouvez pas mesurer la taille de tous les habitants de la Terre. Si vous lancez une balle de ping-pong à l’aide d’une catapulte et mesurez la distance qu’elle parcourt, vous pouvez en théorie lancer la balle une infinité de fois. Dans les deux cas, vos données ne sont qu’un échantillon de la population entière. Cela signifie que vous devez utiliser une formule légèrement différente pour calculer la variance, avec un terme N-1 au dénominateur au lieu de N :

Equation pour la variance d'un échantillon de population en utilisant la population N moins un

C’est ce qu’on appelle la correction de Bessel.

Explorons nos vidéos scientifiques

.

Soulever de la glace avec du fil Activité STEM

L’œuf est-il cru ou cuit ? Activité STEM

Fabriquer un hygromètre pour mesurer l’humidité -. Activité STEM

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *