Articles

Variância e Desvio Padrão

Seria útil ter uma medida de dispersão que tenha as seguintes propriedades:

  1. A medida deve ser proporcional à dispersão dos dados (pequena quando os dados estão agrupados, e grande quando os dados estão amplamente dispersos).
  2. A medida deve ser independente do número de valores no conjunto de dados (caso contrário, simplesmente fazendo mais medições, o valor aumentaria mesmo que a dispersão das medições não estivesse a aumentar).
  3. A medida deve ser independente da média (uma vez que agora só estamos interessados na propagação dos dados, não na sua tendência central).

Tanto a variância como o desvio padrão satisfazem estes três critérios para conjuntos de dados normalmente distribuídos (simétricos, “bell-curve”).

A variância (σ2) é uma medida de quão longe está cada valor do conjunto de dados da média. Aqui está como é definida:

  1. Subtrair a média de cada valor dos dados. Isto dá-lhe uma medida da distância de cada valor da média.
  2. quadrado cada uma destas distâncias (para que todos sejam valores positivos), e adicionar todos os quadrados juntos.
  3. Dividir a soma dos quadrados pelo número de valores no conjunto de dados.

O desvio padrão (σ) é simplesmente a raiz quadrada (positiva) da variância.

O operador da soma

Para escrever a equação que define a variância, é mais simples utilizar o operador da soma, Σ. O operador de somatório é apenas uma forma abreviada de escrever, “Take the somation of a set of numbers”. Como exemplo, vamos mostrar como utilizaríamos o operador de soma para escrever a equação para calcular o valor médio do conjunto de dados 1. Começaremos por atribuir cada número à variável, X1-X6, desta forma:

>X4

Data Set 1
Variável Valor
X1 3
X2 4
X3 4
5
X5 6
X6 8

Pense no variável (X) como a quantidade medida a partir da sua experiência – como o número de folhas por planta – e pense no subscrito como indicando o número do ensaio (1-6). Para calcular o número médio de folhas por planta, temos primeiro de somar os valores de cada uma das seis experiências. Utilizando o operador da soma, escreveríamos assim:

Equação para a soma de seis valores diferentes de X usando o símbolo sigma

que é equivalente a:

Equação adiciona seis valores diferentes de X juntos

ou:

Equação adicionando três, quatro, quatro, cinco, seis e oito para igualar trinta

Obviamente a soma é muito mais compacta para escrever com o operador da soma. Aqui está a equação para calcular a média, μx, do nosso conjunto de dados usando o operador da soma:

Equação para o valor médio de X é igual à soma de todos os valores de X dividida por seis

A equação geral para calcular a média, μ, de um conjunto de números, X1 – XN, seria escrita desta forma:

A equação para o valor médio de X é igual à soma de todos os valores de X dividida pelo número de valores N

Por uma questão de simplicidade, os subscritos são deixados de fora, como fizemos à direita, acima. A eliminação dos subscritos torna as equações menos desordenadas, mas ainda se entende que está a somar todos os valores de X.

A Equação Definindo Variância

Agora que sabe como funciona o operador da soma, pode compreender a equação que define a variância da população (ver nota no final desta página sobre a diferença entre a variância da população e a variância da amostra, e qual deve ser usada para o seu projecto científico):

A equação de variância é igual à soma dos valores X menos a média dos valores X ao quadrado dividida pelo número de valores N

A variância (σ2), é definida como a soma das distâncias ao quadrado de cada termo na distribuição a partir da média (μ), dividida pelo número de termos na distribuição (N).

Existe uma forma mais eficiente de calcular o desvio padrão para um grupo de números, mostrado na equação seguinte:

A equação de variância é igual à soma de X valores ao quadrado dividido pelo número de valores N menos a média de X valores ao quadrado

P>Pega na soma dos quadrados dos termos na distribuição, e divide pelo número de termos na distribuição (N). A partir disto, subtrai-se o quadrado da média (μ2). É muito menos trabalho calcular o desvio padrão desta forma.

É fácil provar a si mesmo que as duas equações são equivalentes. Comece com a definição da variância (Equação 1, abaixo). Expanda a expressão para a quadratura da distância de um termo da média (Equação 2, abaixo).

Cinco passos mostram como a equação de variância é simplificada multiplicando expoentes

Agora separe os termos individuais da equação (o operador da soma distribui os termos entre parênteses, ver Equação 3, acima). No termo final, a soma de Nμ2/N, tomada N vezes, é apenas μ2/N.

Next, podemos simplificar o segundo e terceiro termos na Equação 3. No segundo termo, pode-se ver que ΣX/N é apenas mais uma forma de escrever μ, a média dos termos. Assim, o segundo termo simplifica para -2μ2 (comparar as Equações 3 e 4, acima). No terceiro termo, N/N é igual a 1, pelo que o terceiro termo simplifica para μ2 (compare as Equações 3 e 4, acima).

Finalmente, a partir da Equação 4, pode ver que o segundo e terceiro termos podem ser combinados, dando-nos o resultado que estávamos a tentar provar na Equação 5.

Como exemplo, voltemos às duas distribuições com que começámos a nossa discussão:

conjunto de dados 1: 3, 4, 4, 5, 6, 8
conjunto de dados 2: 1, 2, 4, 5, 7, 11 .

Quais são a variância e o desvio padrão de cada conjunto de dados?

Vamos construir uma tabela para calcular os valores. Pode utilizar uma tabela semelhante para encontrar a variância e o desvio padrão dos resultados das suas experiências.

>ΣX2

Data Set N ΣX μ μ2 σ2 σ
1 6 30 166 5 25 2.67 1.63
2 6 30 216 5 25 11.00 3.32

Embora ambos os conjuntos de dados tenham a mesma média (μ = 5), a variância (σ2) do segundo conjunto de dados, 11,00, é um pouco mais de quatro vezes a variância do primeiro conjunto de dados, 2,67. O desvio padrão (σ) é a raiz quadrada da variância, portanto o desvio padrão do segundo conjunto de dados, 3,32, é pouco mais de duas vezes o desvio padrão do primeiro conjunto de dados, 1,63.

Exemplo histograma de frequência de plantas com um certo número de folhas e baixa dispersão

Um histograma mostrando o número de plantas que têm um certo número de folhas. Todas as plantas têm um número de folhas diferente que varia entre 3 a 8 (excepto 2 plantas que têm 4 folhas). A diferença entre o maior número de folhas e o menor número de folhas é de 5, pelo que os dados têm uma variação relativamente baixa.

Exemplo histograma de frequência de plantas com um determinado número de folhas e alta dispersão

Um histograma mostrando o número de plantas que têm um determinado número de folhas. Todas as plantas têm um número de folhas diferente, variando de 1 a 11. A diferença entre a planta com o maior número de folhas e o menor número de folhas é de 10, pelo que os dados têm uma variação relativamente alta.

A variação e o desvio padrão dão-nos uma medida numérica da dispersão de um conjunto de dados. Estas medidas são úteis para fazer comparações entre conjuntos de dados que vão além de simples impressões visuais.

Variância da população vs. Variância da amostra

As equações dadas acima mostram como calcular a variância para uma população inteira. No entanto, ao fazer um projecto científico, quase nunca terá acesso a dados para toda uma população. Por exemplo, poderá ser capaz de medir a altura de todos na sua sala de aula, mas não pode medir a altura de todos na Terra. Se estiver a lançar uma bola de pingue-pongue com uma catapulta e a medir a distância que percorre, em teoria poderá lançar a bola infinitamente muitas vezes. Em ambos os casos, os seus dados são apenas uma amostra de toda a população. Isto significa que deve usar uma fórmula ligeiramente diferente para calcular a variância, com um termo N-1 no denominador em vez de N:

Equação de variância numa população de amostra usando a população N menos um

Esta é conhecida como correcção de Bessel.

Explorar os nossos vídeos científicos

O Ovo é Cru ou Cozinhado? STEM activity

Lift Ice with Yarn STEM activity

Faça um Higrómetro para Medir a Humidade – STEM activity

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *