11.6 Distribuição condicional regular

Na Seção 11.4, definimos $\mathbb{E}[X|Y]$ para quaisquer variáveis aleatórias $X$ e $Y$ com $X$ integrável ou não-negativa, mas não dissemos como calculá-la. A Seção 11.2 se restringe ao caso em que ambas as variáveis são discretas. A Seção 11.3 descreve o caso de variáveis com densidade conjunta, porém sem fornecer demonstrações rigorosas das propriedades enunciadas. O objetivo agora é dar um significado preciso à noção de distribuição condicional de $X$ dado $Y$ no caso geral, unificando a abordagem das seções anteriores.

Definição 11.56.

Sejam $X$ e $Y$ variáveis aleatórias definidas em um mesmo espaço de probabilidade. Uma distribuição condicional regular de $X$ dado $Y$ é uma função de $\mathcal{B}\times\mathbb{R}$ em $[0,1]$ , que a cada $B\in\mathcal{B}$ e $y\in\mathbb{R}$ associa um número, denotado $\mathbb{P}_{X|Y}(B|y)$ , satisfazendo:

(1)

Para todo $y\in\mathbb{R}$ fixo, a função $B\mapsto\mathbb{P}_{X|Y}(B|y)$ é uma medida de probabilidade em $(\mathbb{R},\mathcal{B})$ ;
(2)

Para todo $B\in\mathcal{B}$ fixo, a função $y\mapsto\mathbb{P}_{X|Y}(B|y)$ é uma função mensurável;
(3)

Para todos $B,C\in\mathcal{B}$ , vale $\mathbb{P}(X\in B,Y\in C)=\int_{C}\mathbb{P}_{X|Y}(B|y)\,\mathbb{P}_{Y}(% \mathrm{d}y).$

O seguinte teorema será demonstrado no Apêndice D.6.

Teorema 11.57.

Dadas duas variáveis aleatórias quaisquer $X$ e $Y$ , sempre existe uma distribuição condicional regular de $X$ dado $Y$ .

O conteúdo desta seção é baseado nas seguintes observações.

Primeiro, caso $X$ e $Y$ sejam discretas, a equação acima se reduz a (11.21), portanto, (11.19) fornece de fato uma distribuição condicional regular.

Segundo, quando $Y$ é absolutamente contínua, a equação acima se reduz a (11.28) fazendo mudança de medida. Se $X$ e $Y$ têm densidade conjunta, podemos deduzir, a partir de (11.29), que vale (11.28) para todos $B,C\in\mathcal{B}$ e, portanto, a definição (11.27) resulta em uma distribuição condicional regular.

Terceiro, podemos definir $\mathbb{E}[X|Y=y]$ a partir de $\mathbb{P}_{X|Y}$ , e usá-la para construir $\mathbb{E}[X|Y]$ explicitamente, obtendo uma versão concreta que satisfaz às duas propriedades do Teorema 11.39. Suponha que $X$ seja integrável ou não-negativa. Veremos logo abaixo que $\int_{\mathbb{R}}x\,\mathbb{P}_{X|Y}(\mathrm{d}x|y)$ está definida para $\mathbb{P}_{Y}$ -quase todo $y$ . Portanto, podemos definir

(11.58) (11.58)

\mathbb{E}[X|Y=y]=\int_{\mathbb{R}}x\,\mathbb{P}_{X|Y}(\mathrm{d}x|y)

nos pontos $y$ para os quais a integral está definida, e $\mathbb{E}[X|Y=y]=0$ caso contrário. Fazendo mudança de medida, a fórmula acima se reduz a (11.34) caso $Y$ tenha densidade, ou (11.15) caso seja discreta. Definimos $\mathbb{E}[X|Y]$ como a variável aleatória que assume o valor $\mathbb{E}[X\,|\,Y=y]$ no evento $\{Y=y\}$ , como havíamos feito nas Seções 11.2 e 11.3, ou seja,

(11.59) (11.59)

\mathbb{E}[X|Y]=\int_{\mathbb{R}}x\,\mathbb{P}_{X|Y}(x|Y)

quase certamente, o que também será justificado logo abaixo. Essa versão de $\mathbb{E}[X|Y]$ goza de todas as propriedades vistas na Seção 11.4. Em particular, $\mathbb{E}X=\mathbb{E}\big{[}\mathbb{E}[X|Y]\big{]}$ e com isso justificamos também (11.37).

Por último, a definição acima pode parecer demasiado abstrata e, mesmo sabendo que sempre existe uma distribuição condicional regular, isso não diz como encontrá-la. Mencionamos de passagem que uma forma explícita de se obter uma distribuição condicional regular seria a seguinte. Primeiro, calculamos

(11.60) (11.60)

F_{X|Y}(x\,|\,y)=\lim_{z\to x^{+}}\lim_{n\to\infty}\mathbb{P}{\Big{(}X% \leqslant z\,\Big{|}\,Y\in[y-\tfrac{1}{n},y+\tfrac{1}{n}]\Big{)}}

para os pontos $y\in\mathbb{R}$ onde a expressão acima está bem definida e resulta em uma função de distribuição na variável $x$ .¹⁸¹⁸ 18 É importante tomar o limite primeiro em $n$ e depois em $z$ ; caso contrário, $F_{X|Y}(\cdot|y)$ pode não ser uma função de distribuição para nenhum $y\in\mathbb{R}$ , como podemos ver tomando $X=Y\sim\mathcal{N}(0,1)$ . Nesse exemplo, teríamos “ $F_{X|Y}(z|z)=\frac{1}{2}$ ” para todo $z\in\mathbb{R}$ (verifique!). Depois, definimos $\mathbb{P}_{X|Y}(\cdot|y)$ como sendo a única medida tal que $\mathbb{P}_{X|Y}\big{(}(-\infty,x]\,\big{|}\,y\big{)}=F_{X|Y}(x|y)$ para todo $x$ . Entretanto, essa forma não é a mais recomendada, nem do ponto de vista teórico, nem do prático. Isso porque a fórmula (11.60) está na forma “diferencial”, já que o limite em $n$ nos dá uma “derivada” na variável $y$ , enquanto a fórmula no item (3) está na forma integral, o que é bem mais robusto. Na prática, é melhor encontrar um candidato ad hoc para a distribuição condicional regular e verificar que ele satisfaz à Definição 11.56 (o limite acima pode nos ajudar a adivinhar quem deveria ser o candidato). Foi exatamente o que fizemos mais acima para justificar a fórmula (11.26). Ao final desta seção, veremos alguns casos onde $\mathbb{P}_{X|Y}$ pode ser descrito de forma mais explícita.

Passemos agora a justificar (11.59). Começamos por um teorema muito útil, que também será demonstrado no Apêndice D.6.

Teorema 11.61.

Sejam $X$ e $Y$ variáveis aleatórias e $\mathbb{P}_{X|Y}$ uma distribuição condicional regular. Então, para toda função mensurável $g:\mathbb{R}^{2}\to[0,+\infty]$ , vale

(11.62) (11.62)

\mathbb{E}[g(X,Y)]=\int_{\mathbb{R}}\Big{(}\int_{\mathbb{R}}g(x,y)\,\mathbb{P}% _{X|Y}(\mathrm{d}x|y)\Big{)}\mathbb{P}_{Y}(\mathrm{d}y),

sendo que a integral interna fornece uma função mensurável de $y$ .

Observe que (11.62) implica imediatamente a condição (3), tomando-se $g(x,y)=\mathds{1}_{B}(x)\mathds{1}_{C}(y)$ . Esse teorema nos diz que essas duas condições são, na verdade, equivalentes.

Corolário 11.63.

Seja $\mathbb{P}_{X|Y}$ uma distribuição condicional regular e $f:\mathbb{R}^{2}\to[0,+\infty]$ uma função mensurável. Então,

\mathbb{E}[f(X,Y)|Y]=\int_{\mathbb{R}}f(x,Y)\,\mathbb{P}_{X|Y}(\mathrm{d}x|Y)

quase certamente.

Demonstração.

O lado direito define uma variável aleatória mensurável com respeito a $\sigma(Y)$ , pois é uma função mensurável (pelo Teorema 11.61) composta com a variável aleatória $Y$ . Seja $A\in\sigma(Y)$ . Por definição, $A=\{Y\in C\}$ para algum $C\in\mathcal{B}$ . Tomando $g(x,y)=f(x,y)\mathds{1}_{C}(y)$ , temos pelo Teorema 11.61 que

$\displaystyle\int_{A}f(X,Y)\,\mathrm{d}\mathbb{P}$	$\displaystyle=\mathbb{E}[f(X,Y)\mathds{1}_{C}(Y)]$
	$\displaystyle=\int_{\mathbb{R}}\Big{(}\int_{\mathbb{R}}f(x,y)\mathds{1}_{C}(y)% \,\mathbb{P}_{X\|Y}(\mathrm{d}x\|y)\Big{)}\mathbb{P}_{Y}(\mathrm{d}y)$
	$\displaystyle=\int_{C}\Big{(}\int_{\mathbb{R}}f(x,y)\,\mathbb{P}_{X\|Y}(\mathrm% {d}x\|y)\Big{)}\mathbb{P}_{Y}(\mathrm{d}y)$
	$\displaystyle=\int_{A}\Big{(}\int_{\mathbb{R}}f(x,Y)\,\mathbb{P}_{X\|Y}(\mathrm% {d}x\|Y)\Big{)}\mathrm{d}\mathbb{P},$

concluindo a prova. ∎

Finalmente, observamos que $\int_{\mathbb{R}}x\,\mathbb{P}_{X|Y}(\mathrm{d}x|y)$ está mesmo definida para $\mathbb{P}_{Y}$ -quase todo $y\in\mathbb{R}$ . Com efeito, sendo $X$ integrável ou não-negativa, vale $\mathbb{E}X^{-}<\infty$ e, pelo Teorema 11.61, temos, para $\mathbb{P}_{Y}$ -quase todo $y$ , que $\int_{\mathbb{R}}x^{-}\,\mathbb{P}_{X|Y}(\mathrm{d}x|y)<\infty$ , donde segue que $\int_{\mathbb{R}}x\,\mathbb{P}_{X|Y}(\mathrm{d}x|y)$ está definida. Finalmente, substituindo $f(x,y)=x^{\pm}$ no Corolário 11.63, obtemos $\mathbb{E}[X^{\pm}|Y]=\int_{\mathbb{R}}x^{\pm}\,\mathbb{P}_{X|Y}(\mathrm{d}x|Y)$ quase certamente, sendo que $\int_{\mathbb{R}}x^{-}\,\mathbb{P}_{X|Y}(\mathrm{d}x|Y)<\infty$ q.c. Subtraindo a parte negativa da parte positiva, obtemos (11.59).

Veremos agora como se apresenta a distribuição condicional regular de $X$ dado $Y$ em alguns casos especiais, além dos casos quando ambas são discretas ou possuem densidade conjunta, que vimos nas Seções 11.2 e 11.3.

Caso em que $Y$ é discreta

O caso em que $Y$ é uma variável aleatória discreta generaliza a abordagem das Seções 11.1 e 11.2. Neste caso, não precisamos da teoria de distribuição condicional regular, e somos obrigados a tomar, literalmente,

\mathbb{P}_{X|Y}(B|y)=\frac{\mathbb{P}(X\in B,Y=y)}{\mathbb{P}(Y=y)}

para todo $y$ tal que $\mathbb{P}(Y=y)>0$ . Os valores $y$ tais que $\mathbb{P}(Y=y)=0$ são irrelevantes, e para ter uma definição completa podemos tomar, por exemplo, $\mathbb{P}_{X|Y}(B|y)=\mathbb{P}_{X}(B)$ .

Verifiquemos as condições da Definição 11.56. A condição (1) vale trivialmente. Defina $D=\{s:\mathbb{P}_{Y}(s)>0\}$ e observe que $D$ é enumerável. A condição (2) vale, pois, para cada $B\in\mathcal{B}$ fixo, podemos expressar $\mathbb{P}_{X|Y}(B|y)$ como soma enumerável de funções mensuráveis $\sum_{s\in D}\mathbb{P}_{X|Y}(B|s)\mathds{1}_{\{s\}}(y)+\mathbb{P}_{X}(B)% \mathds{1}_{D^{c}}(y)$ . Já a condição (3) vale porque

$\displaystyle\mathbb{P}(X\in B,Y\in C)$	$\displaystyle=\sum_{y\in C}\mathbb{P}(X\in B,Y=y)=\sum_{y\in C}\mathbb{P}_{X\|Y% }(B\|y)p_{Y}(y)$
	$\displaystyle=\int_{C}\mathbb{P}_{X\|Y}(B\|y)\mathbb{P}_{Y}(\mathrm{d}y).$

Caso em que $X$ e $Y$ são independentes

Se $X$ e $Y$ são independentes, esse é o caso mais simples, pois o conhecimento de $Y$ não afeta a variável $X$ . Neste caso, podemos tomar

\mathbb{P}_{X|Y}(B|y)=\mathbb{P}_{X}(B).

Verifiquemos a Definição 11.56. As condições (1) e (2) valem trivialmente. A condição (3) vale porque

$\displaystyle\int_{C}\mathbb{P}_{X\|Y}(B\|y)\mathbb{P}_{Y}(\mathrm{d}y)$	$\displaystyle=\int_{C}\mathbb{P}_{X}(B)\mathbb{P}_{Y}(\mathrm{d}y)=\mathbb{P}_% {X}(B)\int_{C}\mathbb{P}_{Y}(\mathrm{d}y)$
	$\displaystyle=\mathbb{P}(X\in B)\mathbb{P}(Y\in C)=\mathbb{P}(X\in B,Y\in C).$

Caso de variável discreta com parâmetro contínuo desconhecido

Suponha que $Y$ seja discreta, $X$ seja absolutamente contínua, e que uma distribuição condicional regular $\mathbb{P}_{Y|X}$ seja conhecida. Seja $p_{Y|X}(y|x)$ uma função de probabilidade condicional associada.

Neste caso, uma distribuição condicional regular de $X$ dado $Y$ tem densidade dada por

f_{X|Y}(x|y)=\frac{p_{Y|X}(y|x)}{p_{Y}(y)}\cdot f_{X}(x)

se $p_{Y}(y)>0$ , e $f_{X|Y}(x|y)=f_{X}(x)$ caso contrário.

Mais precisamente, definimos $\mathbb{P}_{X|Y}(B|y)=\int_{B}f_{X|Y}(x|y)\,\mathrm{d}x$ . Para verificar a condição (2), definimos o conjunto enumerável $D=\{s:p_{Y}(s)>0\}$ , e observamos que, para cada $B\in\mathcal{B}$ fixo, podemos expressar $\mathbb{P}_{X|Y}(B|y)$ como soma enumerável das funções mensuráveis

\sum_{s\in D}\frac{\int_{B}p_{Y|X}(y|x)f_{X}(x)\,\mathrm{d}x}{p_{Y}(y)}\mathds% {1}_{\{s\}}(y)+\mathds{1}_{D^{c}}(y)\cdot\int_{B}f_{X}(x)\,\mathrm{d}x.

O numerador acima é uma função mensurável de $y$ pelo Lema 5.85, pois é dado pela integral em $x$ de uma função mensurável de $x$ e $y$ . Para verificar a condição (1), note que $\mathbb{P}_{X|Y}(B|y)$ é não-negativa por definição, e é $\sigma$ -aditiva em $B$ como consequência da $\sigma$ -aditividade da integral. Ademais,

\displaystyle\mathbb{P}_{X|Y}(\mathbb{R}|y)=\int_{\mathbb{R}}\frac{p_{Y|X}(y|x% )f_{X}(x)}{p_{Y}(y)}\,\mathrm{d}x=\frac{\int_{\mathbb{R}}\mathbb{P}_{Y|X}(\{y% \}|x)\mathbb{P}_{X}(\mathrm{d}x)}{p_{Y}(y)}=1

se $p_{Y}(y)>0$ , e $\mathbb{P}_{X|Y}(\mathbb{R}|y)=\int_{\mathbb{R}}f_{X}(x)\,\mathrm{d}x=1$ caso contrário. Finalmente, para verificar condição (3), desenvolvemos

$\displaystyle\int_{C}\mathbb{P}_{X\|Y}(B\|y)\mathbb{P}_{Y}(\mathrm{d}y)$	$\displaystyle=\sum_{y\in C}\Big{(}\int_{B}\frac{p_{Y\|X}(y\|x)}{p_{Y}(y)}\cdot f% _{X}(x)\,\mathrm{d}x\Big{)}p_{Y}(y)$
	$\displaystyle=\sum_{y\in C}\int_{B}{p_{Y\|X}(y\|x)}\cdot f_{X}(x)\,\mathrm{d}x$
	$\displaystyle=\sum_{y\in C}\int_{B}\mathbb{P}_{Y\|X}(\{y\}\,\|\,x)\mathbb{P}_{X}% (\mathrm{d}x)$
	$\displaystyle=\sum_{y\in C}\mathbb{P}(Y=y,X\in B)$
	$\displaystyle=\mathbb{P}(Y\in C,X\in B).$

Exemplo 11.64 (Ensaios de Bernoulli com parâmetro dado por uma Beta).

Sejam $X$ e $Y$ , variáveis aleatórias tais que $X\sim\mathop{\mathrm{Beta}}\nolimits(a,b)$ e a distribuição condicional de $Y$ dado que $X=x$ é $\mathop{\mathrm{Binom}}\nolimits(n,x)$ . Neste caso,

\displaystyle f_{X|Y}(x|y)=\frac{\binom{n}{y}x^{y}(1-x)^{n-y}}{p_{Y}(y)}\,f_{X% }(x)=\frac{x^{y+a-1}(1-x)^{n-y+b-1}}{c(a,b,n,y)}

para todo $y=0,\dots,n$ . Observamos também que $c=\int_{0}^{1}x^{y+a-1}(1-x)^{n-y+b-1}\mathrm{d}x$ , pois $f_{X|Y}(\cdot|y)$ é uma função de densidade. Portanto, a distribuição condicional de $X$ dado que $Y=y$ é uma distribuição Beta de parâmetros $a+y$ e $b+(n-y)$ . ∎

Caso em que $\mathbb{P}_{X|Y}$ é especificado

Os Exemplos 11.18, 11.20, 11.32 e 11.33 ilustraram o caso em que $\mathbb{P}_{X|Y}$ é especificado, juntamente com $\mathbb{P}_{Y}$ . Tal especificação deve satisfazer às condições (1) e (2), enquanto a equação em (3) serve para determinar a distribuição conjunta $\mathbb{P}_{X,Y}$ , cuja marginal serve para determinar $\mathbb{P}_{X}$ , e a integral (11.58) serve para calcular $\mathbb{E}[X|Y]$ . Vejamos um exemplo que não se enquadra nos contextos das Seções 11.2 ou 11.3.

Exemplo 11.65.

Seja $Y\sim\mathcal{U}[0,1]$ . Se $Y=y$ , então uma moeda com probabilidade $y$ de sair cara é lançada $n$ vezes independentemente. Seja $X$ a variável aleatória que representa o número de caras obtidas.

A distribuição condicional de $X$ dado que $Y=y$ é $\mathop{\mathrm{Binom}}\nolimits(n,y)$ . Portanto, $\mathbb{E}[X\,|\,Y=y]=ny$ , ou seja, $\mathbb{E}[X\,|\,Y]=nY$ , logo

\mathbb{E}\big{[}\mathbb{E}[X|Y]\big{]}=\mathbb{E}[nY]=\frac{n}{2}.\qed

$\displaystyle\int_{A}f(X,Y)\,\mathrm{d}\mathbb{P}$	$\displaystyle=\mathbb{E}[f(X,Y)\mathds{1}_{C}(Y)]$
	$\displaystyle=\int_{\mathbb{R}}\Big{(}\int_{\mathbb{R}}f(x,y)\mathds{1}_{C}(y)% \,\mathbb{P}_{X\|Y}(\mathrm{d}x\|y)\Big{)}\mathbb{P}_{Y}(\mathrm{d}y)$
	$\displaystyle=\int_{C}\Big{(}\int_{\mathbb{R}}f(x,y)\,\mathbb{P}_{X\|Y}(\mathrm% {d}x\|y)\Big{)}\mathbb{P}_{Y}(\mathrm{d}y)$
	$\displaystyle=\int_{A}\Big{(}\int_{\mathbb{R}}f(x,Y)\,\mathbb{P}_{X\|Y}(\mathrm% {d}x\|Y)\Big{)}\mathrm{d}\mathbb{P},$

$\displaystyle\int_{C}\mathbb{P}_{X\|Y}(B\|y)\mathbb{P}_{Y}(\mathrm{d}y)$	$\displaystyle=\sum_{y\in C}\Big{(}\int_{B}\frac{p_{Y\|X}(y\|x)}{p_{Y}(y)}\cdot f% _{X}(x)\,\mathrm{d}x\Big{)}p_{Y}(y)$
	$\displaystyle=\sum_{y\in C}\int_{B}{p_{Y\|X}(y\|x)}\cdot f_{X}(x)\,\mathrm{d}x$
	$\displaystyle=\sum_{y\in C}\int_{B}\mathbb{P}_{Y\|X}(\{y\}\,\|\,x)\mathbb{P}_{X}% (\mathrm{d}x)$
	$\displaystyle=\sum_{y\in C}\mathbb{P}(Y=y,X\in B)$
	$\displaystyle=\mathbb{P}(Y\in C,X\in B).$

11.6 Distribuição condicional regular

Caso em que YY é discreta

Caso em que XX e YY são independentes

Caso de variável discreta com parâmetro contínuo desconhecido

Caso em que ℙX|Y\mathbb{P}_{X|Y} é especificado

Caso em que $Y$ é discreta

Caso em que $X$ e $Y$ são independentes

Caso em que $\mathbb{P}_{X|Y}$ é especificado