2024-03-04
um plano amostral é uma função que para cada possível amostra têm como imagem a probabilidade de seleção da amostra.
temos uma amostra probabilistica quando os dados são obtidos por meio de um plano amostral
ter um plano amostral é interessante pois facilita a obtenção de amostras representativas e consequentemente a estimação de características populacionais e o ajuste de modelos preditivos.
exemplos de planos amostrais:
imagine que queremos estimar a média \(\mu\) de uma variável \(Y\) e acreditamos que ela seja maior e mais variada entre os homens (\(X=1\)) que entre as mulheres (\(X=0\)).
Nesse caso, suponha que bolamos um plano amostral para o qual \[ P(\delta_i = 1|X_i = 1) = 2 P(\delta_i = 1|X_i = 0) \] Dessa forma, \(\pi_i \propto 1 + X_i\).
Suponha que \(Y|X=0 \sim N(3,9)\) e \(Y|X=1 \sim N(6,36)\).
A melhor estimativa possível para \(\mu\) é \(\frac{1}{N}\sum_{k \in U} Y_k\), a média populacional. No entanto, só temos acesso a uma amostra de tamanho n.
Como não fizemos uma amostra aleatória simples, a média amostral não é um bom estimador:
\[ \tilde {\mathbb{E}} (\bar{Y}) = \frac{1}{n} \sum_{i\in s}\tilde{\mathbb{E}}(Y_i) = \frac{1}{n} \sum_{i\in s} \mathbb{E}(Y_i|\delta_i=1) \\= \frac{1}{n} \sum_{i\in s} \left(\frac{1}{3}3 + \frac{2}{3}6\right)= 5 \neq 4.5 = \mu \]
Para construir um estimador melhor, não podemos ignorar o mecanismo de amostragem.
O método mais comum é utilizar o estimador de Horvitz-Thompson (HT):
\[ \bar{Y}_{HT} = \frac{1}{\sum_s \pi_i^{-1}} \sum_{i\in s} \pi_i^{-1}Y_i \]
Nesse caso, temos que \(\pi_i = C(1+X_i)\) e portanto
\[ \bar{Y}_{HT} = \frac{1}{\sum_s \pi_i^{-1}} \sum_{i\in s} \pi_i^{-1}Y_i = \frac{1}{\sum_s (C(1+X_i))^{-1}} \sum_{i\in s} (C(1+X_i))^{-1}Y_i \\= \frac{1}{\sum_s (1+X_i)^{-1}} \sum_{i\in s} \frac{Y_i}{1+X_i} \]
Temos que com \(n=100\) e 100000 simulações,
\(\bar{Y}\) com AAS | \(\bar{Y}_{HT}\) com AE | |
---|---|---|
Viés | 0.048 | 0.053 |
Variância | 0.246 | 0.228 |
EQM | 0.249 | 0.231 |
obs: como o estimador HT é uma espécie de média ponderada, \(\pi_i^{-1}\) são comumente chamados de pesos amostrais.
Chamamos de amostra não-probabilística aquela que não é obtida por meio de um plano amostral conhecido. (Lohr 2022)
por exemplo, amostras de voluntários (Jordan et al. 2013)
ou então amostras probabilísticas com viéses de não-resposta: alguns grupos são mais propensos a responder pesquisas pela internet?
imagine que queremos estimar a média \(\mu\) de uma variável positiva \(Y\) e que nossa amostra \(s_1\) é obtida de maneira que a probabilidade de estar na amostra é \(\pi_i = P(\delta_i = 1) \propto X_i\), sendo \(X\) uma outra variável, tal que \(X \not\perp Y\).
Note que \(Y \not\perp \delta\), uma vez que \(\delta\) depende \(X\): \[\sum_{i\in s} \delta_i = n \implies \mathbb{E}(\delta_i) = \pi_i \approx \frac{n X_i}{\sum_U X_i}, \quad \text{para}\quad n \ll N\] Dessa forma, \(P(Y_i \in A) \not= P(Y_i\in A| \delta_i =1)\). Ou seja, a distribuição de \(Y\) na população é diferente da distribuição amostral.
Se \(Y \sim N(10,1)\) e \(X|Y=y \sim N(y,1)\),
\[\mathbb{E}(Y|\delta=1) \approx 10.1 \neq 10 = \mu\] então a média amostral simples é viesada: \[ \tilde{\mathbb{E}}(\bar{X}) = \frac{1}{n}\sum_{i\in s} \tilde{\mathbb{E}}(X_i) = \frac{1}{n}\sum_{i\in s} \mathbb{E}(X_i|\delta_i=1) \approx 10.1 \neq \mu \]
Alternativamente, podemos estimar as probabilidades de seleção e usar o estimador HT.
Para que a estimação de \(\pi_i\) seja possível, precisamos de informação sobre a população: não conseguimos comparar a distribuição amostral e a populacional sem ter dados de ambas!
O tipo de informação auxiliar que tivermos é importante para as decisões metodológicas:
Desenvolvendo a expressão para a probabilidade de seleção, obtemos \[ \pi(x) = P(\delta=1|X = x) = \frac{P(X=x|\delta=1)P(\delta=1)}{P(X=x)} \\= \frac{P(X=x|\delta=1)P(\delta=1)}{P(X=x|\delta^* = 1)} \propto \frac{P(X=x|\delta=1)}{P(X=x|\delta^* = 1)} \] Dessa forma, a função \(\pi(x)\) pode ser vista como uma razão entre duas densidades. (cf. density ratio estimation, na literatura de machine learning)
Uma maneira simples e estabelecida de atacar esse problema, no caso em que \(n \ll N\), é usando o “truque” de transformá-lo em um exercício de regressão binária. (Elliott and Valliant 2017)
Seja \[Z = \begin{cases}1, & \text{se } \delta = 1 \\ 0, &\text{se } \delta^* = 1\end{cases}\] então,
\[ \pi(x) \propto \frac{P(X=x|\delta=1)}{P(X=x|\delta^* = 1)} = \frac{P(X=x|Z=1)}{P(X=x|Z = 0)} \\\propto \frac{P(Z=1|X=x)}{P(Z=0|X=x)} = \frac{P(Z=1|X=x)}{1 - P(Z=1|X=x)} \]
Imagine que temos uma amostra aleatória \(s_2 = \{i:\delta^*_i = 1\}\) de \(X\) com tamanho \(n\), além da amostra não-probabilística \(s_1\) de \((X,Y)\).
Usando regressão logística, conseguimos estimar \(\pi(x)\), e assim calcular as estimativas pelo estimador de Horvitz-Thompson.
Fazendo 10000 simulações e comparando com a média amostral, temos que:
\(\bar{Y}\) | \(\bar{Y}_{HT}\) | |
---|---|---|
Viés | 0.087 | -0.016 |
Variância | 0.010 | 0.011 |
EQM | 0.018 | 0.011 |
EQM 40% menor!
Desde 2010, cada vez mais empresas de pesquisa de opinião começaram a fazer pesquisas via internet. (Baker et al. 2013) As publicações sobre recrutamento digital também cresceram dramaticamente:
“Number of publication that refer to social media recruitment in the abstract”. Source: Web of Science
Uma empresa que tem se destacado no mundo das pesquisas eleitorais é a Atlas Intel. Em 2020, eles estiveram entre as melhores em prever o resultado das eleições nos EUA:
Em suas notas sobre metodologia1, a Atlas Intel destaca bastante a importância de identificar e corrigir “desvios amostrais anormais”.
O problema de inferência com amostras não-probabilísticas pode ser formulado como um caso particular de covariate shift. Sugiyama, Krauledat, and Müller (2007)
Na área de modelagem preditiva e machine learning, a situação é um pouco diferente das pesquisas de opinião.
Quando os dados são abundantes e modelos flexíveis são bem sucedidos, é frequentemente notado na literatura que correções para a amostra não são necessárias. Gogolashvili et al. (n.d.)
No entanto, quando o número de amostras é relativamente pequeno e usamos classes de modelo restritas como modelos lineares, o uso de pesos pode reduzir substancialmente o erro fora da amostra. Gogolashvili et al. (n.d.)