11.1 Esperança condicional dada uma partição

Muitas vezes conseguimos dividir Ω\Omega em pedaços que podem ser estudados separadamente para depois ver-se o todo. Nesta seção vamos trabalhar com partições finitas, isto é, partições da forma D={D1,D2,,Dm}\mathcal{D}=\{D_{1},D_{2},\dots,D_{m}\} para algum mm\in\mathbb{N}.

Exemplo 11.1.

Sejam X1,X2,X3,X_{1},X_{2},X_{3},\dots variáveis aleatórias assumindo valores em {1,1}\{-1,1\}. O espaço Ω\Omega pode ser dividido em quatro eventos onde ambas X1X_{1} e X2X_{2} são constantes. ∎

Recordemos a definição de esperança condicional de uma variável aleatória simples XX dado um evento AA, vista na Seção 5.4:

𝔼[X|A]=xx(X=x|A).\mathbb{E}[X|A]=\sum_{x}x\cdot\mathbb{P}(X=x|A).
Definição 11.2 (Esperança condicional dada uma partição).

Sejam XX uma variável aleatória simples e D\mathcal{D} uma partição finita de Ω\Omega. Definimos a esperança condicional de XX dado D\mathcal{D}, denotada por 𝔼[X|D]\mathbb{E}[X|\mathcal{D}], como sendo a variável aleatória dada por

𝔼[X|D](ω)=k𝔼[X|Dk] 1Dk(ω).\mathbb{E}[X|\mathcal{D}](\omega)=\sum_{k}\mathbb{E}[X|D_{k}]\,\mathds{1}_{D_{%k}}(\omega).

Ou seja, para cada DDD\in\mathcal{D}, a variável aleatória 𝔼[X|D]\mathbb{E}[X|\mathcal{D}] assume o valor 𝔼[X|D]\mathbb{E}[X|D] quando DD ocorre.

A esperança condicional 𝔼[X|D]\mathbb{E}[X|\mathcal{D}] é a uma aproximação para XX que depende apenas da informação relacionada à partição D\mathcal{D}. Ela é grosseira o suficiente para atender à restrição de ser constante no eventos de D\mathcal{D}, mas fina o suficiente para ser a melhor entre todas as aproximações sujeitas a essa restrição. Veja a Figura 11.1.

Ilustração da definição de esperança condicional.
Figura 11.1: Ilustração da definição de esperança condicional.
Exemplo 11.3.

Um dado honesto é lançado. Seja XX o valor exibido pelo dado e defina a partição D={{X é par},{X é ímpar}}\mathcal{D}=\{\{X\text{ \'{e} par}\},\{X\mbox{ \'{e} \'{\i}mpar}\}\}. Neste caso,

𝔼[X|D](ω)={𝔼[X|X é par],se X(ω) é par,𝔼[X|X é ímpar],se X(ω) é ímpar.\mathbb{E}[X|\mathcal{D}](\omega)=\begin{cases}\mathbb{E}[X|X\text{ \'{e} par}%],&\mbox{se $X(\omega)$ \'{e} par},\\\mathbb{E}[X|X\text{ \'{e} \'{\i}mpar}],&\mbox{se $X(\omega)$ \'{e} \'{\i}mpar%}.\end{cases}

Assim,

𝔼[X|D](ω)={4,se X(ω) é par,3,se X(ω) é ímpar.\mathbb{E}[X|\mathcal{D}](\omega)=\begin{cases}4,&\text{se $X(\omega)$ \'{e} %par},\\3,&\text{se $X(\omega)$ \'{e} \'{\i}mpar}.\end{cases}\qed
Proposição 11.4 (Propriedades da esperança condicional).

Sejam XX e YY variáveis aleatórias simples, D\mathcal{D} uma partição finita de Ω\Omega e a,ba,b\in\mathbb{R}. Então valem as seguintes propriedades:

  1. (a)

    𝔼[a|D]=a\mathbb{E}[a\,|\,\mathcal{D}]=a.

  2. (b)

    Se XYX\leqslant Y, então 𝔼[X|D]𝔼[Y|D]\mathbb{E}[X|\mathcal{D}]\leqslant\mathbb{E}[Y|\mathcal{D}].

  3. (c)

    𝔼[aX+bY|D]=a𝔼[X|D]+b𝔼[Y|D]\mathbb{E}[aX+bY|\mathcal{D}]=a\,\mathbb{E}[X|\mathcal{D}]+b\,\mathbb{E}[Y|%\mathcal{D}].

Demonstração.

A prova é baseada no fato de que essas mesmas propriedades valem quando condicionamos a um evento DD fixo. Com efeito, 𝔼[a|D]=k𝔼[a|Dk]𝟙Dk=ak𝟙Dk=a\mathbb{E}[a|\mathcal{D}]=\sum_{k}\mathbb{E}[a|D_{k}]\mathds{1}_{D_{k}}=a\sum_%{k}\mathds{1}_{D_{k}}=a, 𝔼[aX+bY|D]=k𝔼[aX+bY|Dk]𝟙Dk=ak𝔼[X|Dk]𝟙Dk+bk𝔼[Y|Dk]𝟙Dk=a𝔼[X|D]+b𝔼[Y|D]\mathbb{E}[aX+bY|\mathcal{D}]=\sum_{k}\mathbb{E}[aX+bY|D_{k}]\mathds{1}_{D_{k}%}=a\sum_{k}\mathbb{E}[X|D_{k}]\mathds{1}_{D_{k}}+b\sum_{k}\mathbb{E}[Y|D_{k}]%\mathds{1}_{D_{k}}=a\,\mathbb{E}[X|\mathcal{D}]+b\,\mathbb{E}[Y|\mathcal{D}] e, se XYX\leqslant Y, vale 𝔼[X|D]=k𝔼[X|Dk]𝟙Dkk𝔼[Y|Dk]𝟙Dk=𝔼[Y|D]\mathbb{E}[X|\mathcal{D}]=\sum_{k}\mathbb{E}[X|D_{k}]\mathds{1}_{D_{k}}%\leqslant\sum_{k}\mathbb{E}[Y|D_{k}]\mathds{1}_{D_{k}}=\mathbb{E}[Y|\mathcal{D}]. ∎

Teorema 11.5 (Esperança iterada).

Sejam XX uma variável aleatória simples e D\mathcal{D} uma partição finita. Então

𝔼X=𝔼[𝔼[X|D]].\mathbb{E}X=\mathbb{E}\left[\mathclap{\phantom{\big{|}}}\mathbb{E}[X|\mathcal{%D}]\right].
Demonstração.

Expandindo a definição de 𝔼[X|D]\mathbb{E}[X|\mathcal{D}], obtemos

𝔼[𝔼[X|D]]\displaystyle\mathbb{E}\left[\mathbb{E}[X|\mathcal{D}]\right] =𝔼[k𝔼[X|Dk] 1Dk]=k𝔼[X|Dk](Dk)\displaystyle=\textstyle\mathbb{E}\left[\sum_{k}\mathbb{E}[X|D_{k}]\,\mathds{1%}_{D_{k}}\right]=\sum_{k}\mathbb{E}[X|D_{k}]\,\mathbb{P}(D_{k})
=k𝔼[X𝟙Dk]=𝔼[Xk𝟙Dk]=𝔼X,\displaystyle=\textstyle\sum_{k}\mathbb{E}[X\cdot\mathds{1}_{D_{k}}]=\mathbb{E%}[X\cdot\sum_{k}\mathds{1}_{D_{k}}]=\mathbb{E}X,

sendo que a terceira igualdade segue da Proposição 5.54. ∎

Exemplo 11.6.

No lançamento do dado considerado no Exemplo 11.3,

𝔼X=𝔼[𝔼[X|D]]=124+123=72.\mathbb{E}X=\mathbb{E}\big{[}\mathbb{E}[X|\mathcal{D}]\big{]}=\frac{1}{2}4+%\frac{1}{2}3=\frac{7}{2}.\qed
Definição 11.7.

Seja D={D1,,Dm}\mathcal{D}=\{D_{1},\dots,D_{m}\} uma partição finita e XX uma variável aleatória simples. Dizemos que XX é D\mathcal{D}-mensurável se existem números x1,,xmx_{1},\dots,x_{m}, não necessariamente distintos, tais que

X=kxk𝟙Dk.X=\sum_{k}x_{k}\mathds{1}_{D_{k}}.

A equação acima diz que XX é constante nos eventos de D\mathcal{D}, o que também interpretamos como que a informação sobre D\mathcal{D} determina o valor de XX.

Observe que 𝔼[X|D]\mathbb{E}[X|\mathcal{D}] sempre é D\mathcal{D}-mensurável.

O teorema a seguir diz que, se uma dada variável aleatória é D\mathcal{D}-mensurável, então ela sai da esperança condicional como se fosse uma constante.

Teorema 11.8.

Sejam XX e YY variáveis aleatórias simples e D\mathcal{D} uma partição finita. Se YY é D\mathcal{D}-mensurável, então

𝔼[XY|D]=Y𝔼[X|D]\mathbb{E}[XY|\mathcal{D}]=Y\cdot\mathbb{E}[X|\mathcal{D}]

e, em particular, 𝔼[Y|D]=Y\mathbb{E}[Y|\mathcal{D}]=Y.

Demonstração.

Escrevendo Y=jyj𝟙DjY=\sum_{j}y_{j}\mathds{1}_{D_{j}}, para cada jj fixado, vale a identidade

𝔼[XY|Dj]=𝔼[yjX|Dj]=yj𝔼[X|Dj],\mathbb{E}[XY|D_{j}]=\mathbb{E}[y_{j}X|D_{j}]=y_{j}\mathbb{E}[X|D_{j}],

donde 𝔼[XY|D]=Y𝔼[X|D]\mathbb{E}[XY|\mathcal{D}]=Y\cdot\mathbb{E}[X|\mathcal{D}] para todo ωDj\omega\in D_{j}. Como isso vale para todo jj, vale a identidade para todo ωΩ\omega\in\Omega. ∎

Observação 11.9 (Melhor aproximação na média quadrática).

Vejamos que 𝔼[X|D]\mathbb{E}[X|\mathcal{D}] é a melhor aproximação D\mathcal{D}-mensurável para XX, no sentido de que, dentre todas as variáveis aleatórias ZZ que são D\mathcal{D}-mensuráveis, é a que minimiza o erro quadrático médio 𝔼|ZX|2\mathbb{E}|Z-X|^{2}. Com efeito, tomando W=𝔼[X|D]W=\mathbb{E}[X|\mathcal{D}], mostraremos que 𝔼|XW|2𝔼|XZ|2\mathbb{E}|X-W|^{2}\leqslant\mathbb{E}|X-Z|^{2} para toda variável ZZ, D\mathcal{D}-mensurável. Expandindo e usando o Teorema 11.8 duas vezes,

𝔼[(XZ)2|D]𝔼[(XW)2|D]𝔼[(ZW)2|D]\displaystyle\mathbb{E}[(X-Z)^{2}|\mathcal{D}]-\mathbb{E}[(X-W)^{2}|\mathcal{D%}]-\mathbb{E}[(Z-W)^{2}|\mathcal{D}]
=2𝔼[(XW)(WZ)|D]\displaystyle=2\mathbb{E}[(X-W)(W-Z)\,|\,\mathcal{D}]
=2(WZ)(𝔼[X|D]𝔼[W|D])\displaystyle=2(W-Z)(\mathbb{E}[X|\mathcal{D}]-\mathbb{E}[W|\mathcal{D}])
=2(WZ)(𝔼[X|D]W)=0,\displaystyle=2(W-Z)(\mathbb{E}[X|\mathcal{D}]-W)=0,

pois WZW-Z e WW são D\mathcal{D}-mensuráveis. Tomando esperança na equação acima,

𝔼(XZ)2=𝔼(XW)2+𝔼(ZW)2𝔼(XW)2.\mathbb{E}(X-Z)^{2}=\mathbb{E}(X-W)^{2}+\mathbb{E}(Z-W)^{2}\geqslant\mathbb{E}%(X-W)^{2}.\qed

Observamos que a esperança condicional 𝔼[X|D]\mathbb{E}[X|\mathcal{D}] é a única variável aleatória D\mathcal{D}-mensurável tal que

𝔼[𝔼[X|D]𝟙B]=𝔼[X𝟙B]\mathbb{E}[\mathbb{E}[X|\mathcal{D}]\mathds{1}_{B}]=\mathbb{E}[X\mathds{1}_{B}] (11.10)

para todo BDB\in\mathcal{D}. A unicidade aqui é no sentido de que qualquer outra variável aleatória cumprindo essas duas condições tem que ser necessariamente igual a 𝔼[X|D]\mathbb{E}[X|\mathcal{D}] exceto nos eventos de D\mathcal{D} que tenham probabilidade zero.

As principais propriedades da esperança condicional podem ser obtidas diretamente a partir desta caracterização de 𝔼[X|D]\mathbb{E}[X|\mathcal{D}]. Veremos como essa definição alternativa ajuda na prova do teorema abaixo.

Dadas duas partições C\mathcal{C} e D\mathcal{D}, dizemos que D\mathcal{D} é mais fina que C\mathcal{C}, denotado por DC\mathcal{D}\succcurlyeq\mathcal{C}, se para todo DDD\in\mathcal{D} existe CCC\in\mathcal{C} tal que DCD\subseteq C. Isso significa que D\mathcal{D} tem “mais informação” do que C\mathcal{C}, pois os eventos de D\mathcal{D} formam uma subdivisão dos eventos de C\mathcal{C}.

Teorema 11.11 (Esperança condicional iterada).

Sejam XX uma variável aleatória simples e C\mathcal{C} e D\mathcal{D} partições finitas de Ω\Omega. Se DC\mathcal{D}\succcurlyeq\mathcal{C}, então

  1. (1)

    𝔼[𝔼[X|C]|D]=𝔼[X|C]\mathbb{E}\left[\mathbb{E}[X|\,\mathcal{C}\,]\big{|}\mathcal{D}\,\right]=%\mathbb{E}[\,X|\,\mathcal{C}\,] quase certamente,

  2. (2)

    𝔼[𝔼[X|D]|C]=𝔼[X|C]\mathbb{E}\left[\mathbb{E}[X|\mathcal{D}\,]\big{|}\,\mathcal{C}\,\right]=%\mathbb{E}[\,X|\,\mathcal{C}\,] quase certamente.

A propriedade acima é ilustrada na Figura 11.2.

Diagrama ilustrando a esperança condicional iterada.
Figura 11.2: Diagrama ilustrando a esperança condicional iterada.
Demonstração.

Para clarificar a notação, denotamos Y=𝔼[X|D]Y=\mathbb{E}[X|\mathcal{D}] e Z=𝔼[X|C]Z=\mathbb{E}[X|\mathcal{C}]. Para o item (1), como ZZ é C\mathcal{C}-mensurável e DC\mathcal{D}\succcurlyeq\mathcal{C}, segue que ZZ é D\mathcal{D}-mensurável, donde 𝔼[Z|D]=Z\mathbb{E}[Z|\mathcal{D}]=Z. Provemos agora o item (2). Seja ACA\in\mathcal{C}. Pela definição de ZZ, temos 𝔼[Z𝟙A]=𝔼[X𝟙A].\mathbb{E}[Z\mathds{1}_{A}]=\mathbb{E}[X\mathds{1}_{A}]. Por outro lado, A=B1BkA=B_{1}\cup\dots\cup B_{k}, com B1,,BkDB_{1},\dots,B_{k}\in\mathcal{D} e, pela definição de YY, temos 𝔼[X𝟙Bj]=𝔼[Y𝟙Bj]\mathbb{E}[X\mathds{1}_{B_{j}}]=\mathbb{E}[Y\mathds{1}_{B_{j}}] para j=1,,kj=1,\dots,k. Somando sobre jj, obtemos 𝔼[X𝟙A]=𝔼[Y𝟙A].\mathbb{E}[X\mathds{1}_{A}]=\mathbb{E}[Y\mathds{1}_{A}]. Como ZZ é C\mathcal{C}-mensurável e 𝔼[Z𝟙A]=𝔼[Y𝟙A]\mathbb{E}[Z\mathds{1}_{A}]=\mathbb{E}[Y\mathds{1}_{A}] para todo ACA\in\mathcal{C}, concluímos que Z=𝔼[Y|C]Z=\mathbb{E}[Y|\mathcal{C}] q.c. pela observação acima. ∎