Inferência Estatística
A inferência estatística é o nome que se dá ao conjunto de técnicas utilizadas para estimar o valor de uma característica de uma população baseado em algum valor de uma amostra dessa população.
Definições
População
Conjunto de todos os dados a ser estudado.
Parâmetro
Uma característica da população.
Amostra
Parte do conjunto de dados a ser estudado.
Estatística
Uma característica da amostra.
Estimador
É quando associamos uma estatística com um parâmetro.
Ou seja, usamos uma estatística para inferir o valor de um parâmetro.
Vies
Considerando $n$ o tamanho de uma amostra de uma população.
Um estimador não-viesado é aquele que se aproxima do valor de seu parâmetro quando $n$ é grande o suficiente.
Consistência
Considerando $n$ o tamanho de uma amostra de uma população.
Um estimador consistente é aquele que tem desvio padrão se aproximando de zero quando $n$ é grande o suficiente.
Teorema do Limite Central
Seja $x$ uma variável aleatória qualquer com média $\mu$ e variância $\sigma^2$.
Seja $\{X_1, X_2, X_3, \ldots, X_n\}$ uma amostra aleatória simples com repetição de $x$, o Teorema do Limite Central diz que $X \sim N(\mu; \sigma/\sqrt{n})$.
Ou seja, independentemente do tipo de distribuição de $x$, uma amostra aleatória simples de $x$ tem distribuição aproximadamente normal com média igual à media de $x$ e variância inversamente proporcional ao tamanho da amostra.
Estimação Pontual de Proporções
Seja $p$ uma proporção de uma população. A quantidade de pessoas que aprova um certo projeto de lei, por exemplo.
Seja $\hat{p}$ um proporção de uma amostra dessa população.
Queremos estimar o valor de $p$ baseado no valor de $\hat{p}$.
Como $\hat{p}$ é uma característica de uma amostra, ele pode se aproximar ou se distanciar de $p$ a depender de qual amostra específica colhemos.
Exemplo
Em uma enquete 1500 adultos foram entrevistados e 45% deles responderam que utilizam o Instagram.
Baseado nesse resultado encontre uma estimativa para a proporção de adultos, dentre todos os adultos, que utilizam o Instagram.
Resposta
A proporção $p$ de todos os adultos que utilizam o Instagram, pode ser estimada baseada na proporção $\hat{p}$ dos adultos entrevistados.
Como $\hat{p}$ é uma estatística e assumindo que a enquete parte de uma amostra aleatória simples. Pelo Teorema do Limite Central temos que:
$$\hat{p} \sim N\left(p; \sqrt{\frac{p(1-p)}{n}}\right)$$
Ou seja:
- Como em média $\hat{p}$ é igual à $p$ temos que $\hat{p}$ é um estimador não-viesado.
- Como $\mathrm{dp}(\hat{p}) \approx 0$ quando $n \rightarrow \infty$ temos que $\hat{p}$ é um estimador consistente.
Estimação Intervalar
Intervalo de Confiança ou Margem de Erro
É um intervalo de valores usados para estimar o real valor do parâmetro em questão.
Nível de Confiança
É a probabilidade $1 - \alpha$ do intervalo de confiança conter realmente o parâmetro estudado.
Exemplo de Estimação Intervalar de Proporções
Considerando o estimador $\hat{p}$ para $p$ no exemplo anterior.
Antes mesmo de colhermos a amostra, supondo que $n = 1500$.
Pelo TLC sabemos que $\hat{p} \sim N\left(p; \sqrt{\frac{p(1-p)}{n}}\right)$.
Logo, podemos calcular a probabilidade de $\hat{p}$ diferir de $p$ em um valor $e$ por exemplo:
$$P(\lvert \hat{p} - p \rvert \leq e)$$
De forma mais específica, podemos inclusive escolher um valor $1 - \alpha$ para essa probabilidade…
$$P(\lvert \hat{p} - p \rvert \leq e) = 1 - \alpha$$
Fazendo algumas simplificações chegamos em:
$$P(\hat{p} - e \leq p \leq \hat{p} + e) = 1 - \alpha$$
Ou seja, a chance de $p$ estar entre $\hat{p} - e$ e $\hat{p} + e$ contenha realmente o parâmetro $p$ é de $1 - \alpha$.
Como essa distribuição é normal, podemos escolher ou o tamanho da margem de erro $e$, ou o valor de $\alpha$ mas não ambos.
Caso façamos o comum e fixemos o valor de $\alpha$ em $0.05$:
$$P(\hat{p} - e \leq p \leq \hat{p} + e) = 1 - 0.05$$
$$P(\hat{p} - e \leq p \leq \hat{p} + e) = 0.95$$
Necessariamente, temos que $e = 1.96\sqrt{\frac{p(1-p)}{n}}$:
$$P\left(\hat{p} - 1.96\sqrt{\frac{p(1-p)}{n}} \leq p \leq \hat{p} + 1.96\sqrt{\frac{p(1-p)}{n}}\right) = 0.95$$
Finalmente, caso seja impossível saber o valor de $\sigma$ que é também um parâmetro da população podemos aproximar, nesse caso, por $\hat{p}(1 - \hat{p})$. Assim terminamos com:
$$P\left(\hat{p} - 1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq p \leq \hat{p} + 1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right) = 0.95$$
Ou seja, fixando $\alpha$ em $0.05$:
- O intervalo de confiança é dado por: $$\left[\hat{p} - 1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}, \hat{p} + 1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right]$$
- O nível de confiança é de $1 - \alpha = 0.95$.
Substituindo em valores:
- Proporção encontrada: $\hat{p} = 0.45$, do exemplo anterior.
- Intervalo de Confiança: $\left[0.45 - 1.96 \cdot 0.012, 0.45 + 1.96 \cdot 0.012 \right] = \left[0.424, 0.475\right]$.
- Nível de Confiança: $0.95$.
Procedimento para Estimação Intervalar de Proporções
- Defina o valor de $\alpha$.
- Calcule, baseado em $Z = N(0; 1)$ qual valor $e$ que satisfaz: $$P(-e \leq Z \leq e) = 1 - \alpha$$
- Colha a amostra $\hat{p}$ de tamanho $n$.
- Calcule $E = e \sqrt{\frac{\hat{p} (1 - \hat{p})}{n}}$
- O intervalo de confiança: $\left[\hat{p} - E, \hat{p} + E\right]$.
- O nível de confiança: $1 - \alpha$.
Caso se deseje uma margem de erro fixa $E$, em vez de escolher o tamanho de $n$ é possível substituir $e\sqrt{\frac{\hat{p} (1 - \hat{p})}{n}}$ por $e\sqrt{\frac{0.25}{n}}$
Estimação Pontual de Médias
Seja $\mu$ uma média de uma variável aleatória baseada em uma população. Por exemplo, a altura das pessoas em uma certa idade.
Seja $x = \{x_1, x_2, \ldots, x_n\}$ uma amostra aleatória simples dessa população.
Queremos estimar o valor de $\mu$ baseado no valor de $\bar{x}$.
Como $\bar{x}$ é uma característica de uma amostra, ele pode se aproximar ou se distanciar de $\mu$ a depender de qual amostra específica colhemos.
Procedimento para Estimação Intervalar de Proporções
Seja $x$ uma v.a. qualquer de uma população, por exemplo, a altura. Suponha que $\mu$ é desconhecida e que $\sigma$ é conhecida para facilitar a análise.
Seja $X = \{X_1, X_2, \ldots, X_n\}$ uma amostra aleatória simples de $x$.
Pelo TLC: $\bar{X} \sim N\left(\mu; \frac{\sigma}{\sqrt{n}}\right)$.
Ou seja, dada uma margem de erro $e$ e um nível de confiança $1 - \alpha$ podemos calcular:
$$ P\left(\bar{X} - e \leq \mu \leq \bar{X} + e\right) = 1 - \alpha $$
Do mesmo modo que no exemplo anterior, se usarmos $\alpha = 0.05$:
$$ P\left(\bar{X} - 1.96 \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X} + 1.96 \frac{\sigma}{\sqrt{n}} \right) = 1 - \alpha $$
Resumo:
- Defina o valor de $\alpha$.
- Calcule, baseado em $Z = N(0; 1)$ qual valor $e$ que satisfaz: $$P(-e \leq Z \leq e) = 1 - \alpha$$
- Colha a amostra $\bar{X}$ de tamanho $n$.
- Fazendo $E = e \sigma/\sqrt{n}$
- O intervalo de confiança: $\left[\bar{X} - E, \bar{X} + E\right]$.
- O nível de confiança: $1 - \alpha$.