Medidas de Dispersão

São medidas que tentam resumir, em apenas um número, a variabilidade do conjunto de dados analisados.

Para simplificar a notação, todo somatório na forma $\sum_{i = 1}^n$ será escrito como $\sum$ quando o contexto dos itens a serem somados ficar claro.

Amplitude

É o maior valor menos o menor valor observado.

Desvio(s)

O desvio de uma observação $x_i$ da variável $x$ é dado por:

$$d_i = x_i - \bar{x}$$

Ele representa quanto essa observação se desvia da média dessa variável.

Desvio médio/absoluto

O desvio médio ou absoluto de uma variável $x$ pode ser calculado pela seguinte fórmula:

$$\mathrm{dm}(x) = \frac{\sum \lvert x_i - \bar{x} \rvert}{n} = \frac{\sum \lvert d_i \rvert}{n}$$

É a média de todos os desvios observados.

Variância

Existem duas fórmulas para a variância de uma variável.

Uma para amostras de uma população, outra para a própria população.

Amostras

A variância para amostras de uma variável $x$, $s^2$ ou $\mathrm{var_s}(x)$, pode ser calculada por:

$$\mathrm{var_s}(x) = s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} = \frac{\sum d_i^2}{n-1}$$

População

A variância para populações de uma variável $x$, $\sigma^2$ ou $\mathrm{var_p}(x)$, pode ser calculada por:

$$\mathrm{var_p}(x) = \sigma^2 = \frac{\sum (x_i - \bar{x})^2}{n} = \frac{\sum d_i^2}{n}$$

Desvio padrão

O desvio padrão é a raiz quadrada da variancia.

Existem duas fórmulas para o desvio padrão de uma variável.

Uma para amostras de uma população, outra para a própria população.

Amostras

O desvio padrão para amostras de uma variável $x$, $s$ ou $\mathrm{dp_s}(x)$, pode ser calculado por:

$$\mathrm{dp_s}(x) = s = \sqrt{\frac{\sum (x_i - \bar{x})^2}{n-1}}$$

Ou de forma alternativa e mais rápida:

$$\mathrm{dp_s}(x) = s = \sqrt{\frac{n(\sum x_i^2) - (\sum x_i)^2}{n(n-1)}}$$

População

O desvio padrão para a população de uma variável $x$, $\sigma$ ou $\mathrm{dp_p}(x)$, pode ser calculado por:

$$\mathrm{dp_p}(x) = \sigma = \sqrt{\frac{\sum (x_i - \bar{x})^2}{n}}$$

Ou de forma alternativa e mais rápida:

$$\mathrm{dp_s}(x) = \sigma = \sqrt{\frac{n(\sum x_i^2) - (\sum x_i)^2 }{n^2}}$$

Teorema de Chebyshev

Para qualquer conjunto de dados e qualquer valor $k > 1$, existe uma proporção de pelo menos $1 - \frac{1}{k^2}$ observações da variável $x$ no intervalo $\bar{x} - k \sigma$ e $\bar{x} + k \sigma$.

Ou seja:

  • pelo menos $75\%$ dos valores observados estão entre $\bar{x} - 2\sigma$ e $\bar{x} + 2\sigma$
  • pelo menos $89\%$ dos valores observados estão entre $\bar{x} - 3\sigma$ e $\bar{x} + 3\sigma$.

Atualizado em: