Articles

Wariancja i odchylenie standardowe

Przydatna byłaby miara rozproszenia, która miałaby następujące właściwości:

  1. Miara powinna być proporcjonalna do rozproszenia danych (mała, gdy dane są skupione razem, a duża, gdy dane są szeroko rozproszone).
  2. Miara powinna być niezależna od liczby wartości w zbiorze danych (w przeciwnym razie, po prostu wykonując więcej pomiarów, wartość wzrosłaby, nawet jeśli rozrzut pomiarów nie wzrastał).
  3. Miara powinna być niezależna od średniej (ponieważ teraz interesuje nas tylko rozrzut danych, a nie ich tendencja centralna).

Zarówno wariancja, jak i odchylenie standardowe spełniają te trzy kryteria dla normalnie rozłożonych (symetrycznych, „krzywych dzwonowych”) zbiorów danych.

Wariancja (σ2) jest miarą tego, jak daleko każda wartość w zbiorze danych jest od średniej. Oto jak się ją definiuje:

  1. Odejmij średnią od każdej wartości w danych. To daje miarę odległości każdej wartości od średniej.
  2. Podnieść do kwadratu każdą z tych odległości (tak, że wszystkie są dodatnie wartości) i dodać wszystkie kwadraty razem.
  3. Podzielić sumę kwadratów przez liczbę wartości w zestawie danych.

Odchylenie standardowe (σ) jest po prostu (dodatni) pierwiastek kwadratowy wariancji.

Operator sumowania

Aby napisać równanie, które definiuje wariancję, najprościej jest użyć operatora sumowania, Σ. Operator sumowania to po prostu skrótowy sposób na napisanie: „Weź sumę zbioru liczb”. Jako przykład pokażemy, jak użylibyśmy operatora sumowania do napisania równania obliczającego średnią wartość zbioru danych 1. Zaczniemy od przypisania każdej liczby do zmiennej X1-X6 w następujący sposób:

.

Zbiór danych 1
Zmienna Wartość
X1 3
X2 4
X3 4
X4 5
X5 6
X6 8

Myśl o zmiennej (X) jako o wielkości mierzonej. zmiennej (X) jako mierzonej wielkości z twojego eksperymentu – liczby liści na roślinę – i pomyśl o indeksie dolnym jako o numerze próby (1-6). Aby obliczyć średnią liczbę liści na roślinę, musimy najpierw zsumować wartości z każdej z sześciu prób. Używając operatora sumowania, zapisalibyśmy to w następujący sposób:

Equation for the summation of six different values of X using the sigma symbol

co jest równoważne:

Equation adds six different values of X together

lub:

Equation adding three, four, four, five, six and eight to equal thirty

Oczywiście suma jest dużo bardziej zwarta do zapisania za pomocą operatora sumowania. Oto równanie do obliczania średniej, μx, naszego zestawu danych przy użyciu operatora sumowania:

Equation for the average value of X is equal to the summation of all X values divided by six

Ogólne równanie do obliczania średniej, μ, zbioru liczb, X1 – XN, byłoby napisane tak:

Equation for the average value of X is equal to the summation of all X values divided by the number of values N

Czasami, dla uproszczenia, subscripts are left out, as we did on the right, above. Pozbycie się indeksów sprawia, że równania są mniej zagmatwane, ale nadal rozumiemy, że sumujemy wszystkie wartości X.

Równanie definiujące wariancję

Gdy już wiesz jak działa operator sumowania, możesz zrozumieć równanie definiujące wariancję populacji (zobacz uwagę na końcu tej strony o różnicy między wariancją populacji a wariancją próbki, i której z nich powinieneś użyć w swoim projekcie naukowym):

Equation for variance equals the sum of X values minus the average of X values squared divided by the number of values N

Wariancja (σ2), definiowana jest jako suma kwadratów odległości każdego terminu w rozkładzie od średniej (μ), podzielona przez liczbę terminów w rozkładzie (N).

Istnieje bardziej efektywny sposób obliczania odchylenia standardowego dla grupy liczb, przedstawiony w poniższym równaniu:

Equation for variance equals the sum of X values squared divided by the number of values N minus the mean of X values squared

Bierzesz sumę kwadratów terminów w rozkładzie i dzielisz przez liczbę terminów w rozkładzie (N). Od tego odejmujesz kwadrat średniej (μ2). Obliczanie odchylenia standardowego w ten sposób jest o wiele mniej pracochłonne.

Łatwo udowodnić sobie, że te dwa równania są równoważne. Zacznij od definicji wariancji (równanie 1, poniżej). Rozwiń wyrażenie na podniesienie do kwadratu odległości terminu od średniej (równanie 2, poniżej).

Pięć kroków pokazuje, jak równanie na wariancję upraszcza się przez pomnożenie wykładników

Teraz oddziel poszczególne terminy równania (operator sumowania rozkłada na terminy w nawiasach, patrz równanie 3, powyżej). W ostatnim wyrazie suma μ2/N, wzięta N razy, jest po prostu Nμ2/N.

Następnie możemy uprościć drugi i trzeci wyraz w równaniu 3. W drugim członie widać, że ΣX/N to po prostu inny sposób zapisu μ, średniej z członów. Zatem drugi wyraz upraszcza się do -2μ2 (porównaj równania 3 i 4, powyżej). W trzecim wyrazie, N/N jest równe 1, więc trzeci wyraz upraszcza się do μ2 (porównaj równania 3 i 4, powyżej).

Wreszcie, z równania 4 widać, że drugi i trzeci wyraz można połączyć, co daje nam wynik, który próbowaliśmy udowodnić w równaniu 5.

Jako przykład, wróćmy do dwóch rozkładów, od których zaczęliśmy naszą dyskusję:

Zbiór danych 1: 3, 4, 4, 5, 6, 8
Zbiór danych 2: 1, 2, 4, 5, 7, 11 .

Jakie są wariancja i odchylenie standardowe każdego zestawu danych?

Skonstruujemy tabelę, aby obliczyć te wartości. Możesz użyć podobnej tabeli, aby znaleźć wariancję i odchylenie standardowe dla wyników swoich eksperymentów.

.

Zbiór danych N ΣX ΣX2 μ μ2 σ2 σ
1 6 30 166 5 25 2.67 1.63
2 6 30 216 5 25 11.00 3.32

Ale oba zbiory danych mają tę samą średnią (μ = 5), wariancja (σ2) drugiego zbioru danych, 11,00, jest nieco ponad czterokrotnie większa od wariancji pierwszego zbioru danych, 2,67. Odchylenie standardowe (σ) jest pierwiastkiem kwadratowym z wariancji, więc odchylenie standardowe drugiego zestawu danych, 3.32, jest nieco ponad dwa razy większe od odchylenia standardowego pierwszego zestawu danych, 1.63.

Przykładowy histogram częstości roślin o określonej liczbie liści i niskim rozproszeniu

Histogram przedstawiający liczbę roślin, które mają określoną liczbę liści. Wszystkie rośliny mają różną liczbę liści w zakresie od 3 do 8 (z wyjątkiem 2 roślin, które mają 4 liście). Różnica między najwyższą liczbą liści i najniższą liczbą liści wynosi 5, więc dane mają stosunkowo niską wariancję.

Przykładowy histogram częstotliwości roślin o określonej liczbie liści i wysokiej dyspersji

Histogram przedstawiający liczbę roślin, które mają określoną liczbę liści. Wszystkie rośliny mają różną liczbę liści w zakresie od 1 do 11. Różnica między rośliną o największej liczbie liści a najmniejszą liczbą liści wynosi 10, więc dane mają stosunkowo dużą wariancję.

Wariancja i odchylenie standardowe dają nam liczbową miarę rozproszenia zbioru danych. Te miary są przydatne do dokonywania porównań między zbiorami danych, które wykraczają poza proste wrażenia wizualne.

Wariancja populacji vs. wariancja próbki

Podane powyżej równania pokazują jak obliczyć wariancję dla całej populacji. Jednakże, podczas wykonywania projektu naukowego, prawie nigdy nie będziesz miał dostępu do danych dla całej populacji. Na przykład, możesz być w stanie zmierzyć wzrost każdego w swojej klasie, ale nie możesz zmierzyć wzrostu każdego na Ziemi. Jeśli wystrzeliwujesz piłeczkę pingpongową z katapulty i mierzysz odległość, jaką pokona, teoretycznie możesz wystrzelić ją nieskończenie wiele razy. W obu przypadkach twoje dane są tylko próbką całej populacji. Oznacza to, że musisz użyć nieco innego wzoru, aby obliczyć wariancję, z członem N-1 w mianowniku zamiast N:

Zapytanie o wariancję w populacji próbnej przy użyciu populacji N minus jeden

Jest to znane jako poprawka Bessela.

Explore Our Science Videos

Lift Ice with Yarn STEM activity
Is the Egg Raw or Cooked? Działalność STEM

Zrób higrometr do pomiaru wilgotności -. Zajęcia STEM

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *