Articles

Varianz & Standardabweichung

Es wäre sinnvoll, ein Streuungsmaß zu haben, das die folgenden Eigenschaften hat:

  1. Das Maß sollte proportional zur Streuung der Daten sein (klein, wenn die Daten zusammen geclustert sind, und groß, wenn die Daten weit verstreut sind).
  2. Das Maß sollte unabhängig von der Anzahl der Werte im Datensatz sein (andernfalls würde der Wert einfach durch mehr Messungen steigen, auch wenn die Streuung der Messungen nicht zunimmt).
  3. Das Maß sollte unabhängig vom Mittelwert sein (da wir jetzt nur an der Streuung der Daten interessiert sind, nicht an ihrer zentralen Tendenz).

Sowohl die Varianz als auch die Standardabweichung erfüllen diese drei Kriterien für normalverteilte (symmetrische, „Glockenkurve“) Datensätze.

Die Varianz (σ2) ist ein Maß dafür, wie weit jeder Wert im Datensatz vom Mittelwert entfernt ist. Sie ist wie folgt definiert:

  1. Subtrahieren Sie den Mittelwert von jedem Wert in den Daten. So erhalten Sie ein Maß für den Abstand jedes Wertes vom Mittelwert.
  2. Quadrieren Sie jeden dieser Abstände (so dass sie alle positive Werte sind) und addieren Sie alle Quadrate zusammen.
  3. Teilen Sie die Summe der Quadrate durch die Anzahl der Werte im Datensatz.

Die Standardabweichung (σ) ist einfach die (positive) Quadratwurzel der Varianz.

Der Summationsoperator

Um die Gleichung zu schreiben, die die Varianz definiert, ist es am einfachsten, den Summationsoperator, Σ, zu verwenden. Der Summationsoperator ist nur eine Kurzform, um zu schreiben: „Nimm die Summe einer Menge von Zahlen.“ Als Beispiel zeigen wir, wie wir den Summationsoperator verwenden würden, um die Gleichung zur Berechnung des Mittelwerts von Datensatz 1 zu schreiben. Wir beginnen damit, dass wir jede Zahl der Variablen X1-X6 zuweisen, und zwar so:

Datensatz 1
Variable Wert
X1 3
X2 4
X3 4
X4 5
X5 6
X6 8

Denken Sie sich die Variable (X) als die gemessene Größe aus Ihrem Experiment – z. B. die Anzahl der Blätter pro Pflanze – und betrachten Sie den tiefgestellten Index als Angabe der Versuchsnummer (1-6). Um die durchschnittliche Anzahl der Blätter pro Pflanze zu berechnen, müssen wir zunächst die Werte aus jedem der sechs Versuche addieren. Unter Verwendung des Summationsoperators würden wir das so schreiben:

Gleichung für die Summation von sechs verschiedenen Werten von X unter Verwendung des Sigma-Symbols

was äquivalent ist zu:

Gleichung zur Addition von sechs verschiedenen Werten von X

oder:

Gleichung addiert drei, vier, vier, fünf, sechs und acht zu dreißig

Natürlich ist die Summe mit dem Summationsoperator viel kompakter zu schreiben. Hier ist die Gleichung für die Berechnung des Mittelwerts μx unseres Datensatzes mit dem Summationsoperator:

Gleichung für den Mittelwert von X ist gleich der Summe aller X-Werte geteilt durch sechs

Die allgemeine Gleichung für die Berechnung des Mittelwerts μ eines Satzes von Zahlen, X1 – XN, würde wie folgt geschrieben werden:

Die Gleichung für den Mittelwert von X ist gleich der Summe aller X-Werte geteilt durch die Anzahl der Werte N

Manchmal werden der Einfachheit halber die tiefgestellten Indizes weggelassen, wie wir es oben rechts getan haben. Das Weglassen der Indizes macht die Gleichungen weniger unübersichtlich, aber es ist immer noch klar, dass Sie alle Werte von X addieren.

Die Gleichung, die die Varianz definiert

Nachdem Sie nun wissen, wie der Summationsoperator funktioniert, können Sie die Gleichung verstehen, die die Varianz der Grundgesamtheit definiert (siehe Hinweis am Ende dieser Seite über den Unterschied zwischen der Varianz der Grundgesamtheit und der Varianz der Stichprobe, und welche Sie für Ihr wissenschaftliches Projekt verwenden sollten):

Die Gleichung für die Varianz ist gleich der Summe der X-Werte minus dem Mittelwert der X-Werte zum Quadrat, geteilt durch die Anzahl der Werte N

Die Varianz (σ2), ist definiert als die Summe der quadrierten Abstände jedes Terms in der Verteilung vom Mittelwert (μ), geteilt durch die Anzahl der Terms in der Verteilung (N).

Es gibt einen effizienteren Weg, um die Standardabweichung für eine Gruppe von Zahlen zu berechnen, der in der folgenden Gleichung dargestellt ist:

Gleichung für die Varianz ist die Summe der X-Werte zum Quadrat geteilt durch die Anzahl der Werte N minus den Mittelwert der X-Werte zum Quadrat

Sie nehmen die Summe der Quadrate der Terme in der Verteilung und teilen durch die Anzahl der Terme in der Verteilung (N). Davon subtrahieren Sie das Quadrat des Mittelwertes (μ2). Es ist viel weniger Arbeit, die Standardabweichung auf diese Weise zu berechnen.

Es ist einfach, sich selbst zu beweisen, dass die beiden Gleichungen äquivalent sind. Beginnen Sie mit der Definition für die Varianz (Gleichung 1, unten). Erweitern Sie den Ausdruck für die Quadrierung des Abstands eines Terms vom Mittelwert (Gleichung 2, unten).

Fünf Schritte zeigen, wie die Gleichung für die Varianz durch Ausmultiplizieren der Exponenten vereinfacht wird

Nun trennen Sie die einzelnen Terme der Gleichung (der Summationsoperator verteilt sich auf die Terme in Klammern, siehe Gleichung 3, oben). Im letzten Term ist die Summe von μ2/N, die N-mal genommen wird, einfach Nμ2/N.

Als nächstes können wir den zweiten und dritten Term in Gleichung 3 vereinfachen. Im zweiten Term können Sie sehen, dass ΣX/N nur eine andere Schreibweise für μ, den Durchschnitt der Terme, ist. Der zweite Term vereinfacht sich also auf -2μ2 (vergleichen Sie die Gleichungen 3 und 4, oben). Im dritten Term ist N/N gleich 1, also vereinfacht sich der dritte Term zu μ2 (vgl. Gleichung 3 und 4 oben).

Schließlich können Sie aus Gleichung 4 erkennen, dass der zweite und der dritte Term kombiniert werden können, was uns das Ergebnis liefert, das wir in Gleichung 5 zu beweisen versuchten.

Zur Veranschaulichung gehen wir zurück zu den beiden Verteilungen, mit denen wir unsere Diskussion begonnen haben:

Datensatz 1: 3, 4, 4, 5, 6, 8
Datensatz 2: 1, 2, 4, 5, 7, 11 .

Wie groß sind die Varianz und die Standardabweichung der einzelnen Datensätze?

Wir konstruieren eine Tabelle, um die Werte zu berechnen. Sie können eine ähnliche Tabelle verwenden, um die Varianz und Standardabweichung für Ergebnisse aus Ihren Experimenten zu finden.

Datensatz N ΣX ΣX2 μ μ2 σ2 σ
1 6 30 166 5 25 2.67 1.63
2 6 30 216 5 25 11.00 3.32

Obwohl beide Datensätze den gleichen Mittelwert (μ = 5) haben, ist die Varianz (σ2) des zweiten Datensatzes, 11,00, etwas mehr als das Vierfache der Varianz des ersten Datensatzes, 2,67. Die Standardabweichung (σ) ist die Quadratwurzel der Varianz, so dass die Standardabweichung des zweiten Datensatzes, 3,32, etwas mehr als das Zweifache der Standardabweichung des ersten Datensatzes, 1,63, beträgt.

Beispiel-Häufigkeitshistogramm von Pflanzen mit einer bestimmten Anzahl von Blättern und geringer Streuung

Ein Histogramm, das die Anzahl von Pflanzen zeigt, die eine bestimmte Anzahl von Blättern haben. Alle Pflanzen haben eine unterschiedliche Anzahl von Blättern im Bereich von 3 bis 8 (mit Ausnahme von 2 Pflanzen, die 4 Blätter haben). Die Differenz zwischen der höchsten und der niedrigsten Anzahl von Blättern beträgt 5, so dass die Daten eine relativ geringe Varianz aufweisen.

Beispiel für ein Häufigkeitshistogramm von Pflanzen mit einer bestimmten Anzahl von Blättern und hoher Streuung

Ein Histogramm, das die Anzahl von Pflanzen zeigt, die eine bestimmte Anzahl von Blättern haben. Alle Pflanzen haben eine unterschiedliche Anzahl von Blättern im Bereich von 1 bis 11. Die Differenz zwischen der Pflanze mit der höchsten und der niedrigsten Anzahl von Blättern beträgt 10, also haben die Daten eine relativ hohe Streuung.

Die Varianz und die Standardabweichung geben uns ein numerisches Maß für die Streuung eines Datensatzes. Diese Maße sind nützlich, um Vergleiche zwischen Datensätzen anzustellen, die über einfache visuelle Eindrücke hinausgehen.

Populationsvarianz vs. Stichprobenvarianz

Die oben angegebenen Gleichungen zeigen Ihnen, wie Sie die Varianz für eine gesamte Population berechnen können. Wenn Sie jedoch ein wissenschaftliches Projekt durchführen, werden Sie fast nie Zugang zu Daten für eine gesamte Population haben. Zum Beispiel können Sie vielleicht die Größe aller Personen in Ihrem Klassenzimmer messen, aber Sie können nicht die Größe aller Personen auf der Erde messen. Wenn Sie einen Tischtennisball mit einem Katapult abschießen und die Entfernung messen, die er zurücklegt, könnten Sie den Ball theoretisch unendlich oft abschießen. In jedem Fall sind Ihre Daten nur eine Stichprobe der gesamten Population. Das bedeutet, dass Sie eine etwas andere Formel verwenden müssen, um die Varianz zu berechnen, mit einem N-1-Term im Nenner anstelle von N:

Gleichung für die Varianz in einer Stichprobenpopulation unter Verwendung der Population N minus eins

Dies ist als Besselsche Korrektur bekannt.

Erforschen Sie unsere wissenschaftlichen Videos

Eis mit Garn anheben MINT-Aktivität

Ist das Ei roh oder gekocht? MINT-Aktivität

Baue ein Hygrometer, um die Luftfeuchtigkeit zu messen. MINT-Aktivität

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.