inferência com amostras não-probabilísticas

Pedro Tótolo

2024-03-04

definições: plano amostral e amostra probabilística

um plano amostral é uma função que para cada possível amostra têm como imagem a probabilidade de seleção da amostra.

  • importante: por definição, toda unidade amostral deve ser amostrada com probabilidade maior que zero.

temos uma amostra probabilistica quando os dados são obtidos por meio de um plano amostral

ter um plano amostral é interessante pois facilita a obtenção de amostras representativas e consequentemente a estimação de características populacionais e o ajuste de modelos preditivos.

exemplos de planos amostrais:

  • amostragem aleatoria simples
  • amostragem por conglomerados em múltiplos estágios estratificada

notação

exemplo 1: contextualização

imagine que queremos estimar a média \(\mu\) de uma variável \(Y\) e acreditamos que ela seja maior e mais variada entre os homens (\(X=1\)) que entre as mulheres (\(X=0\)).

Nesse caso, suponha que bolamos um plano amostral para o qual \[ P(\delta_i = 1|X_i = 1) = 2 P(\delta_i = 1|X_i = 0) \] Dessa forma, \(\pi_i \propto 1 + X_i\).

Suponha que \(Y|X=0 \sim N(3,9)\) e \(Y|X=1 \sim N(6,36)\).

exemplo 1: estimação

A melhor estimativa possível para \(\mu\) é \(\frac{1}{N}\sum_{k \in U} Y_k\), a média populacional. No entanto, só temos acesso a uma amostra de tamanho n.

Como não fizemos uma amostra aleatória simples, a média amostral não é um bom estimador:

\[ \tilde {\mathbb{E}} (\bar{Y}) = \frac{1}{n} \sum_{i\in s}\tilde{\mathbb{E}}(Y_i) = \frac{1}{n} \sum_{i\in s} \mathbb{E}(Y_i|\delta_i=1) \\= \frac{1}{n} \sum_{i\in s} \left(\frac{1}{3}3 + \frac{2}{3}6\right)= 5 \neq 4.5 = \mu \]

Para construir um estimador melhor, não podemos ignorar o mecanismo de amostragem.

O método mais comum é utilizar o estimador de Horvitz-Thompson (HT):

\[ \bar{Y}_{HT} = \frac{1}{\sum_s \pi_i^{-1}} \sum_{i\in s} \pi_i^{-1}Y_i \]

exemplo 1: horvitz-thompson

Nesse caso, temos que \(\pi_i = C(1+X_i)\) e portanto

\[ \bar{Y}_{HT} = \frac{1}{\sum_s \pi_i^{-1}} \sum_{i\in s} \pi_i^{-1}Y_i = \frac{1}{\sum_s (C(1+X_i))^{-1}} \sum_{i\in s} (C(1+X_i))^{-1}Y_i \\= \frac{1}{\sum_s (1+X_i)^{-1}} \sum_{i\in s} \frac{Y_i}{1+X_i} \]

Temos que com \(n=100\) e 100000 simulações,

\(\bar{Y}\) com AAS \(\bar{Y}_{HT}\) com AE
Viés 0.048 0.053
Variância 0.246 0.228
EQM 0.249 0.231

obs: como o estimador HT é uma espécie de média ponderada, \(\pi_i^{-1}\) são comumente chamados de pesos amostrais.

amostra não-probabilística

Chamamos de amostra não-probabilística aquela que não é obtida por meio de um plano amostral conhecido. (Lohr 2022)

por exemplo, amostras de voluntários (Jordan et al. 2013)

ou então amostras probabilísticas com viéses de não-resposta: alguns grupos são mais propensos a responder pesquisas pela internet?

  • se as probabilidade de seleção dependem de variáveis importantes para o estudo, os estimadores usuais possivelmente serão viesados: podemos dizer que o mecanismo de seleção não é ignorável.
  • para construir estimadores melhores, é preciso levar em conta as particularidades da amostragem, por exemplo estimando as probabilidades de seleção. (Valliant and Dever 2011)

exemplo 2: contextualização

imagine que queremos estimar a média \(\mu\) de uma variável positiva \(Y\) e que nossa amostra \(s_1\) é obtida de maneira que a probabilidade de estar na amostra é \(\pi_i = P(\delta_i = 1) \propto X_i\), sendo \(X\) uma outra variável, tal que \(X \not\perp Y\).

Note que \(Y \not\perp \delta\), uma vez que \(\delta\) depende \(X\): \[\sum_{i\in s} \delta_i = n \implies \mathbb{E}(\delta_i) = \pi_i \approx \frac{n X_i}{\sum_U X_i}, \quad \text{para}\quad n \ll N\] Dessa forma, \(P(Y_i \in A) \not= P(Y_i\in A| \delta_i =1)\). Ou seja, a distribuição de \(Y\) na população é diferente da distribuição amostral.

exemplo 2: estimadores

Se \(Y \sim N(10,1)\) e \(X|Y=y \sim N(y,1)\),

\[\mathbb{E}(Y|\delta=1) \approx 10.1 \neq 10 = \mu\] então a média amostral simples é viesada: \[ \tilde{\mathbb{E}}(\bar{X}) = \frac{1}{n}\sum_{i\in s} \tilde{\mathbb{E}}(X_i) = \frac{1}{n}\sum_{i\in s} \mathbb{E}(X_i|\delta_i=1) \approx 10.1 \neq \mu \]

Alternativamente, podemos estimar as probabilidades de seleção e usar o estimador HT.

Para que a estimação de \(\pi_i\) seja possível, precisamos de informação sobre a população: não conseguimos comparar a distribuição amostral e a populacional sem ter dados de ambas!

exemplo 2: estimadores

O tipo de informação auxiliar que tivermos é importante para as decisões metodológicas:

  • Raking pode ser feito a partir de totais populacionais da variável \(X\), estimando \(\pi_i\) de maneira que os totais univariados na amostra sejam compatíveis com os totais populacionais.
  • Métodos mais complexos de pós-estratificação, por outro lado, requerem mais informação, como por exemplo uma amostra aleatória de referência (ou auxiliar).

exemplo 2: estimando \(\pi_i\)

Desenvolvendo a expressão para a probabilidade de seleção, obtemos \[ \pi(x) = P(\delta=1|X = x) = \frac{P(X=x|\delta=1)P(\delta=1)}{P(X=x)} \\= \frac{P(X=x|\delta=1)P(\delta=1)}{P(X=x|\delta^* = 1)} \propto \frac{P(X=x|\delta=1)}{P(X=x|\delta^* = 1)} \] Dessa forma, a função \(\pi(x)\) pode ser vista como uma razão entre duas densidades. (cf. density ratio estimation, na literatura de machine learning)

exemplo 2: estimando \(\pi_i\)

Uma maneira simples e estabelecida de atacar esse problema, no caso em que \(n \ll N\), é usando o “truque” de transformá-lo em um exercício de regressão binária. (Elliott and Valliant 2017)

Seja \[Z = \begin{cases}1, & \text{se } \delta = 1 \\ 0, &\text{se } \delta^* = 1\end{cases}\] então,

\[ \pi(x) \propto \frac{P(X=x|\delta=1)}{P(X=x|\delta^* = 1)} = \frac{P(X=x|Z=1)}{P(X=x|Z = 0)} \\\propto \frac{P(Z=1|X=x)}{P(Z=0|X=x)} = \frac{P(Z=1|X=x)}{1 - P(Z=1|X=x)} \]

exemplo 2: estimando \(\pi_i\)

Imagine que temos uma amostra aleatória \(s_2 = \{i:\delta^*_i = 1\}\) de \(X\) com tamanho \(n\), além da amostra não-probabilística \(s_1\) de \((X,Y)\).

Usando regressão logística, conseguimos estimar \(\pi(x)\), e assim calcular as estimativas pelo estimador de Horvitz-Thompson.

Fazendo 10000 simulações e comparando com a média amostral, temos que:

\(\bar{Y}\) \(\bar{Y}_{HT}\)
Viés 0.087 -0.016
Variância 0.010 0.011
EQM 0.018 0.011

EQM 40% menor!

mas quanto isso importa na prática?

Desde 2010, cada vez mais empresas de pesquisa de opinião começaram a fazer pesquisas via internet. (Baker et al. 2013) As publicações sobre recrutamento digital também cresceram dramaticamente:

“Number of publication that refer to social media recruitment in the abstract”. Source: Web of Science

Uma empresa que tem se destacado no mundo das pesquisas eleitorais é a Atlas Intel. Em 2020, eles estiveram entre as melhores em prever o resultado das eleições nos EUA:

Atlas Intel

Em suas notas sobre metodologia1, a Atlas Intel destaca bastante a importância de identificar e corrigir “desvios amostrais anormais”.

  • Recrutamento Digital Aleatório (RDR): Convites aleatórios são enviados a usuários da internet através de banners na web, aplicativos móveis, Google e YouTube, imitando o conteúdo frequentemente acessado por usuários brasileiros.
  • Viés de Seleção: A AtlasIntel realiza um monitoramento detalhado para garantir que todos os usuários da internet tenham chances iguais de serem selecionados para pesquisas. Isso é feito através de anúncios aleatórios e um controle rigoroso para evitar seleções tendenciosas.
  • Viés de Não-Resposta Diferencial: As taxas de resposta variam entre subgrupos, o que pode afetar a representatividade das amostras. A AtlasIntel estuda esses padrões e ajusta a coleta de dados para corrigir qualquer viés.

  • Variáveis de Representatividade: A AtlasIntel utiliza um conjunto amplo de variáveis para estratificação, incluindo IDH, tamanho do município e recebimento de transferências de renda, além das tradicionais como sexo, região, idade e escolaridade.
  • Algoritmo Iterativo: Um algoritmo atribui pesos únicos aos respondentes para minimizar a sobre ou sub-representação de subgrupos. O resultado é uma amostra que reflete com precisão o perfil da população em todas as dimensões relevantes.

Modelagem preditiva

O problema de inferência com amostras não-probabilísticas pode ser formulado como um caso particular de covariate shift. Sugiyama, Krauledat, and Müller (2007)

Na área de modelagem preditiva e machine learning, a situação é um pouco diferente das pesquisas de opinião.

Quando os dados são abundantes e modelos flexíveis são bem sucedidos, é frequentemente notado na literatura que correções para a amostra não são necessárias. Gogolashvili et al. (n.d.)

No entanto, quando o número de amostras é relativamente pequeno e usamos classes de modelo restritas como modelos lineares, o uso de pesos pode reduzir substancialmente o erro fora da amostra. Gogolashvili et al. (n.d.)

Referências:

Baker, Reg, J. Michael Brick, Nancy A. Bates, Mike Battaglia, Mick P. Couper, Jill A. Dever, Krista J. Gile, and Roger Tourangeau. 2013. “Summary Report of the AAPOR Task Force on Non-Probability Sampling.” Journal of Survey Statistics and Methodology 1 (2): 90–143. https://doi.org/10.1093/jssam/smt008.
Elliott, Michael R., and Richard Valliant. 2017. “Inference for Nonprobability Samples.” Statistical Science 32 (2): 249–64. https://doi.org/10.1214/16-STS598.
Gogolashvili, Davit, Matteo Zecchin, Motonobu Kanagawa, Marios Kountouris, and Maurizio Filippone. n.d. “When Is Importance Weighting Correction Needed for Covariate Shift Adaptation?” https://doi.org/10.48550/arXiv.2303.04020.
Jordan, Sue, Alan Watkins, Mel Storey, Steven J. Allen, Caroline J. Brooks, Iveta Garaiova, Martin L. Heaven, et al. 2013. “Volunteer Bias in Recruitment, Retention, and Blood Sample Donation in a Randomised Controlled Trial Involving Mothers and Their Children at Six Months and Two Years: A Longitudinal Analysis.” PLOS ONE 8 (7): e67912. https://doi.org/10.1371/journal.pone.0067912.
Lohr, Sharon L. 2022. Sampling: Design and Analysis. Third edition. Chapman & Hall CRC Texts in Statistical Science. Boca Raton: CRC Press.
Sugiyama, Masashi, Matthias Krauledat, and Klaus-Robert Müller. 2007. “Covariate Shift Adaptation by Importance Weighted Cross Validation.” The Journal of Machine Learning Research 8 (December): 9851005.
Valliant, Richard, and Jill A. Dever. 2011. “Estimating Propensity Adjustments for Volunteer Web Surveys.” Sociological Methods & Research 40 (1): 105–37. https://doi.org/10.1177/0049124110392533.