11.6 Distribuição condicional regular

Na Seção 11.4, definimos 𝔼[X|Y]\mathbb{E}[X|Y] para quaisquer variáveis aleatórias XX e YY com XX integrável ou não-negativa, mas não dissemos como calculá-la. A Seção 11.2 se restringe ao caso em que ambas as variáveis são discretas. A Seção 11.3 descreve o caso de variáveis com densidade conjunta, porém sem fornecer demonstrações rigorosas das propriedades enunciadas. O objetivo agora é dar um significado preciso à noção de distribuição condicional de XX dado YY no caso geral, unificando a abordagem das seções anteriores.

Definição 11.56.

Sejam XX e YY variáveis aleatórias definidas em um mesmo espaço de probabilidade. Uma distribuição condicional regular de XX dado YY é uma função de ×\mathcal{B}\times\mathbb{R} em [0,1][0,1], que a cada BB\in\mathcal{B} e yy\in\mathbb{R} associa um número, denotado X|Y(B|y)\mathbb{P}_{X|Y}(B|y), satisfazendo:

  1. (1)

    Para todo yy\in\mathbb{R} fixo, a função BX|Y(B|y)B\mapsto\mathbb{P}_{X|Y}(B|y) é uma medida de probabilidade em (,)(\mathbb{R},\mathcal{B});

  2. (2)

    Para todo BB\in\mathcal{B} fixo, a função yX|Y(B|y)y\mapsto\mathbb{P}_{X|Y}(B|y) é uma função mensurável;

  3. (3)

    Para todos B,CB,C\in\mathcal{B}, vale (XB,YC)=CX|Y(B|y)Y(dy).\mathbb{P}(X\in B,Y\in C)=\int_{C}\mathbb{P}_{X|Y}(B|y)\,\mathbb{P}_{Y}(% \mathrm{d}y).

O seguinte teorema será demonstrado no Apêndice D.6.

Teorema 11.57.

Dadas duas variáveis aleatórias quaisquer XX e YY, sempre existe uma distribuição condicional regular de XX dado YY.

O conteúdo desta seção é baseado nas seguintes observações.

Primeiro, caso XX e YY sejam discretas, a equação acima se reduz a (11.21), portanto, (11.19) fornece de fato uma distribuição condicional regular.

Segundo, quando YY é absolutamente contínua, a equação acima se reduz a (11.28) fazendo mudança de medida. Se XX e YY têm densidade conjunta, podemos deduzir, a partir de (11.29), que vale (11.28) para todos B,CB,C\in\mathcal{B} e, portanto, a definição (11.27) resulta em uma distribuição condicional regular.

Terceiro, podemos definir 𝔼[X|Y=y]\mathbb{E}[X|Y=y] a partir de X|Y\mathbb{P}_{X|Y}, e usá-la para construir 𝔼[X|Y]\mathbb{E}[X|Y] explicitamente, obtendo uma versão concreta que satisfaz às duas propriedades do Teorema 11.39. Suponha que XX seja integrável ou não-negativa. Veremos logo abaixo que xX|Y(dx|y)\int_{\mathbb{R}}x\,\mathbb{P}_{X|Y}(\mathrm{d}x|y) está definida para Y\mathbb{P}_{Y}-quase todo yy. Portanto, podemos definir

(11.58) (11.58) 𝔼[X|Y=y]=xX|Y(dx|y)\mathbb{E}[X|Y=y]=\int_{\mathbb{R}}x\,\mathbb{P}_{X|Y}(\mathrm{d}x|y)

nos pontos yy para os quais a integral está definida, e 𝔼[X|Y=y]=0\mathbb{E}[X|Y=y]=0 caso contrário. Fazendo mudança de medida, a fórmula acima se reduz a (11.34) caso YY tenha densidade, ou (11.15) caso seja discreta. Definimos 𝔼[X|Y]\mathbb{E}[X|Y] como a variável aleatória que assume o valor 𝔼[X|Y=y]\mathbb{E}[X\,|\,Y=y] no evento {Y=y}\{Y=y\}, como havíamos feito nas Seções 11.211.3, ou seja,

(11.59) (11.59) 𝔼[X|Y]=xX|Y(x|Y)\mathbb{E}[X|Y]=\int_{\mathbb{R}}x\,\mathbb{P}_{X|Y}(x|Y)

quase certamente, o que também será justificado logo abaixo. Essa versão de 𝔼[X|Y]\mathbb{E}[X|Y] goza de todas as propriedades vistas na Seção 11.4. Em particular, 𝔼X=𝔼[𝔼[X|Y]]\mathbb{E}X=\mathbb{E}\big{[}\mathbb{E}[X|Y]\big{]} e com isso justificamos também (11.37).

Por último, a definição acima pode parecer demasiado abstrata e, mesmo sabendo que sempre existe uma distribuição condicional regular, isso não diz como encontrá-la. Mencionamos de passagem que uma forma explícita de se obter uma distribuição condicional regular seria a seguinte. Primeiro, calculamos

(11.60) (11.60) FX|Y(x|y)=limzx+limn(Xz|Y[y1n,y+1n])F_{X|Y}(x\,|\,y)=\lim_{z\to x^{+}}\lim_{n\to\infty}\mathbb{P}{\Big{(}X% \leqslant z\,\Big{|}\,Y\in[y-\tfrac{1}{n},y+\tfrac{1}{n}]\Big{)}}

para os pontos yy\in\mathbb{R} onde a expressão acima está bem definida e resulta em uma função de distribuição na variável xx.1818 18 É importante tomar o limite primeiro em nn e depois em zz; caso contrário, FX|Y(|y)F_{X|Y}(\cdot|y) pode não ser uma função de distribuição para nenhum yy\in\mathbb{R}, como podemos ver tomando X=Y𝒩(0,1)X=Y\sim\mathcal{N}(0,1). Nesse exemplo, teríamos “FX|Y(z|z)=12F_{X|Y}(z|z)=\frac{1}{2}” para todo zz\in\mathbb{R} (verifique!). Depois, definimos X|Y(|y)\mathbb{P}_{X|Y}(\cdot|y) como sendo a única medida tal que X|Y((,x]|y)=FX|Y(x|y)\mathbb{P}_{X|Y}\big{(}(-\infty,x]\,\big{|}\,y\big{)}=F_{X|Y}(x|y) para todo xx. Entretanto, essa forma não é a mais recomendada, nem do ponto de vista teórico, nem do prático. Isso porque a fórmula (11.60) está na forma “diferencial”, já que o limite em nn nos dá uma “derivada” na variável yy, enquanto a fórmula no item (3) está na forma integral, o que é bem mais robusto. Na prática, é melhor encontrar um candidato ad hoc para a distribuição condicional regular e verificar que ele satisfaz à Definição 11.56 (o limite acima pode nos ajudar a adivinhar quem deveria ser o candidato). Foi exatamente o que fizemos mais acima para justificar a fórmula (11.26). Ao final desta seção, veremos alguns casos onde X|Y\mathbb{P}_{X|Y} pode ser descrito de forma mais explícita.

Passemos agora a justificar (11.59). Começamos por um teorema muito útil, que também será demonstrado no Apêndice D.6.

Teorema 11.61.

Sejam XX e YY variáveis aleatórias e X|Y\mathbb{P}_{X|Y} uma distribuição condicional regular. Então, para toda função mensurável g:2[0,+]g:\mathbb{R}^{2}\to[0,+\infty], vale

(11.62) (11.62) 𝔼[g(X,Y)]=(g(x,y)X|Y(dx|y))Y(dy),\mathbb{E}[g(X,Y)]=\int_{\mathbb{R}}\Big{(}\int_{\mathbb{R}}g(x,y)\,\mathbb{P}% _{X|Y}(\mathrm{d}x|y)\Big{)}\mathbb{P}_{Y}(\mathrm{d}y),

sendo que a integral interna fornece uma função mensurável de yy.

Observe que (11.62) implica imediatamente a condição (3), tomando-se g(x,y)=𝟙B(x)𝟙C(y)g(x,y)=\mathds{1}_{B}(x)\mathds{1}_{C}(y). Esse teorema nos diz que essas duas condições são, na verdade, equivalentes.

Corolário 11.63.

Seja X|Y\mathbb{P}_{X|Y} uma distribuição condicional regular e f:2[0,+]f:\mathbb{R}^{2}\to[0,+\infty] uma função mensurável. Então,

𝔼[f(X,Y)|Y]=f(x,Y)X|Y(dx|Y)\mathbb{E}[f(X,Y)|Y]=\int_{\mathbb{R}}f(x,Y)\,\mathbb{P}_{X|Y}(\mathrm{d}x|Y)

quase certamente.

Demonstração.

O lado direito define uma variável aleatória mensurável com respeito a σ(Y)\sigma(Y), pois é uma função mensurável (pelo Teorema 11.61) composta com a variável aleatória YY. Seja Aσ(Y)A\in\sigma(Y). Por definição, A={YC}A=\{Y\in C\} para algum CC\in\mathcal{B}. Tomando g(x,y)=f(x,y)𝟙C(y)g(x,y)=f(x,y)\mathds{1}_{C}(y), temos pelo Teorema 11.61 que

Af(X,Y)d\displaystyle\int_{A}f(X,Y)\,\mathrm{d}\mathbb{P} =𝔼[f(X,Y)𝟙C(Y)]\displaystyle=\mathbb{E}[f(X,Y)\mathds{1}_{C}(Y)]
=(f(x,y)𝟙C(y)X|Y(dx|y))Y(dy)\displaystyle=\int_{\mathbb{R}}\Big{(}\int_{\mathbb{R}}f(x,y)\mathds{1}_{C}(y)% \,\mathbb{P}_{X|Y}(\mathrm{d}x|y)\Big{)}\mathbb{P}_{Y}(\mathrm{d}y)
=C(f(x,y)X|Y(dx|y))Y(dy)\displaystyle=\int_{C}\Big{(}\int_{\mathbb{R}}f(x,y)\,\mathbb{P}_{X|Y}(\mathrm% {d}x|y)\Big{)}\mathbb{P}_{Y}(\mathrm{d}y)
=A(f(x,Y)X|Y(dx|Y))d,\displaystyle=\int_{A}\Big{(}\int_{\mathbb{R}}f(x,Y)\,\mathbb{P}_{X|Y}(\mathrm% {d}x|Y)\Big{)}\mathrm{d}\mathbb{P},

concluindo a prova. ∎

Finalmente, observamos que xX|Y(dx|y)\int_{\mathbb{R}}x\,\mathbb{P}_{X|Y}(\mathrm{d}x|y) está mesmo definida para Y\mathbb{P}_{Y}-quase todo yy\in\mathbb{R}. Com efeito, sendo XX integrável ou não-negativa, vale 𝔼X<\mathbb{E}X^{-}<\infty e, pelo Teorema 11.61, temos, para Y\mathbb{P}_{Y}-quase todo yy, que xX|Y(dx|y)<\int_{\mathbb{R}}x^{-}\,\mathbb{P}_{X|Y}(\mathrm{d}x|y)<\infty, donde segue que xX|Y(dx|y)\int_{\mathbb{R}}x\,\mathbb{P}_{X|Y}(\mathrm{d}x|y) está definida. Finalmente, substituindo f(x,y)=x±f(x,y)=x^{\pm} no Corolário 11.63, obtemos 𝔼[X±|Y]=x±X|Y(dx|Y)\mathbb{E}[X^{\pm}|Y]=\int_{\mathbb{R}}x^{\pm}\,\mathbb{P}_{X|Y}(\mathrm{d}x|Y) quase certamente, sendo que xX|Y(dx|Y)<\int_{\mathbb{R}}x^{-}\,\mathbb{P}_{X|Y}(\mathrm{d}x|Y)<\infty q.c. Subtraindo a parte negativa da parte positiva, obtemos (11.59).

Veremos agora como se apresenta a distribuição condicional regular de XX dado YY em alguns casos especiais, além dos casos quando ambas são discretas ou possuem densidade conjunta, que vimos nas Seções 11.211.3.

Caso em que YY é discreta

O caso em que YY é uma variável aleatória discreta generaliza a abordagem das Seções 11.111.2. Neste caso, não precisamos da teoria de distribuição condicional regular, e somos obrigados a tomar, literalmente,

X|Y(B|y)=(XB,Y=y)(Y=y)\mathbb{P}_{X|Y}(B|y)=\frac{\mathbb{P}(X\in B,Y=y)}{\mathbb{P}(Y=y)}

para todo yy tal que (Y=y)>0\mathbb{P}(Y=y)>0. Os valores yy tais que (Y=y)=0\mathbb{P}(Y=y)=0 são irrelevantes, e para ter uma definição completa podemos tomar, por exemplo, X|Y(B|y)=X(B)\mathbb{P}_{X|Y}(B|y)=\mathbb{P}_{X}(B).

Verifiquemos as condições da Definição 11.56. A condição (1) vale trivialmente. Defina D={s:Y(s)>0}D=\{s:\mathbb{P}_{Y}(s)>0\} e observe que DD é enumerável. A condição (2) vale, pois, para cada BB\in\mathcal{B} fixo, podemos expressar X|Y(B|y)\mathbb{P}_{X|Y}(B|y) como soma enumerável de funções mensuráveis sDX|Y(B|s)𝟙{s}(y)+X(B)𝟙Dc(y)\sum_{s\in D}\mathbb{P}_{X|Y}(B|s)\mathds{1}_{\{s\}}(y)+\mathbb{P}_{X}(B)% \mathds{1}_{D^{c}}(y). Já a condição (3) vale porque

(XB,YC)\displaystyle\mathbb{P}(X\in B,Y\in C) =yC(XB,Y=y)=yCX|Y(B|y)pY(y)\displaystyle=\sum_{y\in C}\mathbb{P}(X\in B,Y=y)=\sum_{y\in C}\mathbb{P}_{X|Y% }(B|y)p_{Y}(y)
=CX|Y(B|y)Y(dy).\displaystyle=\int_{C}\mathbb{P}_{X|Y}(B|y)\mathbb{P}_{Y}(\mathrm{d}y).

Caso em que XX e YY são independentes

Se XX e YY são independentes, esse é o caso mais simples, pois o conhecimento de YY não afeta a variável XX. Neste caso, podemos tomar

X|Y(B|y)=X(B).\mathbb{P}_{X|Y}(B|y)=\mathbb{P}_{X}(B).

Verifiquemos a Definição 11.56. As condições (1)(2) valem trivialmente. A condição (3) vale porque

CX|Y(B|y)Y(dy)\displaystyle\int_{C}\mathbb{P}_{X|Y}(B|y)\mathbb{P}_{Y}(\mathrm{d}y) =CX(B)Y(dy)=X(B)CY(dy)\displaystyle=\int_{C}\mathbb{P}_{X}(B)\mathbb{P}_{Y}(\mathrm{d}y)=\mathbb{P}_% {X}(B)\int_{C}\mathbb{P}_{Y}(\mathrm{d}y)
=(XB)(YC)=(XB,YC).\displaystyle=\mathbb{P}(X\in B)\mathbb{P}(Y\in C)=\mathbb{P}(X\in B,Y\in C).

Caso de variável discreta com parâmetro contínuo desconhecido

Suponha que YY seja discreta, XX seja absolutamente contínua, e que uma distribuição condicional regular Y|X\mathbb{P}_{Y|X} seja conhecida. Seja pY|X(y|x)p_{Y|X}(y|x) uma função de probabilidade condicional associada.

Neste caso, uma distribuição condicional regular de XX dado YY tem densidade dada por

fX|Y(x|y)=pY|X(y|x)pY(y)fX(x)f_{X|Y}(x|y)=\frac{p_{Y|X}(y|x)}{p_{Y}(y)}\cdot f_{X}(x)

se pY(y)>0p_{Y}(y)>0, e fX|Y(x|y)=fX(x)f_{X|Y}(x|y)=f_{X}(x) caso contrário.

Mais precisamente, definimos X|Y(B|y)=BfX|Y(x|y)dx\mathbb{P}_{X|Y}(B|y)=\int_{B}f_{X|Y}(x|y)\,\mathrm{d}x. Para verificar a condição (2), definimos o conjunto enumerável D={s:pY(s)>0}D=\{s:p_{Y}(s)>0\}, e observamos que, para cada BB\in\mathcal{B} fixo, podemos expressar X|Y(B|y)\mathbb{P}_{X|Y}(B|y) como soma enumerável das funções mensuráveis

sDBpY|X(y|x)fX(x)dxpY(y)𝟙{s}(y)+𝟙Dc(y)BfX(x)dx.\sum_{s\in D}\frac{\int_{B}p_{Y|X}(y|x)f_{X}(x)\,\mathrm{d}x}{p_{Y}(y)}\mathds% {1}_{\{s\}}(y)+\mathds{1}_{D^{c}}(y)\cdot\int_{B}f_{X}(x)\,\mathrm{d}x.

O numerador acima é uma função mensurável de yy pelo Lema 5.85, pois é dado pela integral em xx de uma função mensurável de xx e yy. Para verificar a condição (1), note que X|Y(B|y)\mathbb{P}_{X|Y}(B|y) é não-negativa por definição, e é σ\sigma-aditiva em BB como consequência da σ\sigma-aditividade da integral. Ademais,

X|Y(|y)=pY|X(y|x)fX(x)pY(y)dx=Y|X({y}|x)X(dx)pY(y)=1\displaystyle\mathbb{P}_{X|Y}(\mathbb{R}|y)=\int_{\mathbb{R}}\frac{p_{Y|X}(y|x% )f_{X}(x)}{p_{Y}(y)}\,\mathrm{d}x=\frac{\int_{\mathbb{R}}\mathbb{P}_{Y|X}(\{y% \}|x)\mathbb{P}_{X}(\mathrm{d}x)}{p_{Y}(y)}=1

se pY(y)>0p_{Y}(y)>0, e X|Y(|y)=fX(x)dx=1\mathbb{P}_{X|Y}(\mathbb{R}|y)=\int_{\mathbb{R}}f_{X}(x)\,\mathrm{d}x=1 caso contrário. Finalmente, para verificar condição (3), desenvolvemos

CX|Y(B|y)Y(dy)\displaystyle\int_{C}\mathbb{P}_{X|Y}(B|y)\mathbb{P}_{Y}(\mathrm{d}y) =yC(BpY|X(y|x)pY(y)fX(x)dx)pY(y)\displaystyle=\sum_{y\in C}\Big{(}\int_{B}\frac{p_{Y|X}(y|x)}{p_{Y}(y)}\cdot f% _{X}(x)\,\mathrm{d}x\Big{)}p_{Y}(y)
=yCBpY|X(y|x)fX(x)dx\displaystyle=\sum_{y\in C}\int_{B}{p_{Y|X}(y|x)}\cdot f_{X}(x)\,\mathrm{d}x
=yCBY|X({y}|x)X(dx)\displaystyle=\sum_{y\in C}\int_{B}\mathbb{P}_{Y|X}(\{y\}\,|\,x)\mathbb{P}_{X}% (\mathrm{d}x)
=yC(Y=y,XB)\displaystyle=\sum_{y\in C}\mathbb{P}(Y=y,X\in B)
=(YC,XB).\displaystyle=\mathbb{P}(Y\in C,X\in B).
Exemplo 11.64 (Ensaios de Bernoulli com parâmetro dado por uma Beta).

Sejam XX e YY, variáveis aleatórias tais que XBeta(a,b)X\sim\mathop{\mathrm{Beta}}\nolimits(a,b) e a distribuição condicional de YY dado que X=xX=x é Binom(n,x)\mathop{\mathrm{Binom}}\nolimits(n,x). Neste caso,

fX|Y(x|y)=(ny)xy(1x)nypY(y)fX(x)=xy+a1(1x)ny+b1c(a,b,n,y)\displaystyle f_{X|Y}(x|y)=\frac{\binom{n}{y}x^{y}(1-x)^{n-y}}{p_{Y}(y)}\,f_{X% }(x)=\frac{x^{y+a-1}(1-x)^{n-y+b-1}}{c(a,b,n,y)}

para todo y=0,,ny=0,\dots,n. Observamos também que c=01xy+a1(1x)ny+b1dxc=\int_{0}^{1}x^{y+a-1}(1-x)^{n-y+b-1}\mathrm{d}x, pois fX|Y(|y)f_{X|Y}(\cdot|y) é uma função de densidade. Portanto, a distribuição condicional de XX dado que Y=yY=y é uma distribuição Beta de parâmetros a+ya+y e b+(ny)b+(n-y). ∎

Caso em que X|Y\mathbb{P}_{X|Y} é especificado

Os Exemplos 11.18, 11.20, 11.3211.33 ilustraram o caso em que X|Y\mathbb{P}_{X|Y} é especificado, juntamente com Y\mathbb{P}_{Y}. Tal especificação deve satisfazer às condições (1)(2), enquanto a equação em (3) serve para determinar a distribuição conjunta X,Y\mathbb{P}_{X,Y}, cuja marginal serve para determinar X\mathbb{P}_{X}, e a integral (11.58) serve para calcular 𝔼[X|Y]\mathbb{E}[X|Y]. Vejamos um exemplo que não se enquadra nos contextos das Seções 11.2 ou 11.3.

Exemplo 11.65.

Seja Y𝒰[0,1]Y\sim\mathcal{U}[0,1]. Se Y=yY=y, então uma moeda com probabilidade yy de sair cara é lançada nn vezes independentemente. Seja XX a variável aleatória que representa o número de caras obtidas.

A distribuição condicional de XX dado que Y=yY=y é Binom(n,y)\mathop{\mathrm{Binom}}\nolimits(n,y). Portanto, 𝔼[X|Y=y]=ny\mathbb{E}[X\,|\,Y=y]=ny, ou seja, 𝔼[X|Y]=nY\mathbb{E}[X\,|\,Y]=nY, logo

𝔼[𝔼[X|Y]]=𝔼[nY]=n2.\mathbb{E}\big{[}\mathbb{E}[X|Y]\big{]}=\mathbb{E}[nY]=\frac{n}{2}.\qed