MAC5005 - Fundamentos Matemáticos do Aprendizado Sequencial e Online
IME-USP
2026-03-02
\[ \def\argmin{\operatorname*{argmin}} \def\Regret{\operatorname*{Regret}} \def\PRegret{\operatorname*{P-Regret}} \def\WL{\operatorname*{WL}} % \def\T{\mathsf{T}} \def\prob{\mathbb{P}} \def\expect{\mathbb{E}} \def\ones{\mathbf{1}} \def\eps{\varepsilon} \def\ERM{\mathrm{ERM}} \def\DESC{\mathrm{DESC}} \def\VC{\mathrm{VC}} \def\LDim{\mathrm{LDim}} \def\bR{\mathbb{R}} \def\bN{\mathbb{N}} \def\cC{\mathcal{C}} \def\cD{\mathcal{D}} \def\cH{\mathcal{H}} \def\cB{\mathcal{B}} \def\cX{\mathcal{X}} \def\cY{\mathcal{Y}} \def\cV{\mathcal{V}} \]
Conjunto de atributos \(\cX\) e rótulos \(\cY\)
Hipótese \(h : \cX \to \cY\) (o que queremos aprender)
Função de custo \(\ell : \cY^\cX \times (\cX \times \cY) \to \bR\)
Distribuição \(\cD\) desconhecida
Conjunto de treino \(S = ((x_1, y_1), \dotsc, (x_m, y_m))\) gerado IID de \(\cD\)
Foco em Classificação binária: \(\cY = \{0, 1\}\) e \(\ell(h, (x,y)) = \ones[h(x) \neq y]\)
Erros de generalização e de treino: \[ L_{\cD}(h) = \expect_{(x,y) \sim \cD}[\ell(h, (x,y))] \quad\text{e}\quad L_S(h) = \frac{1}{m} \sum_{i=1}^m \ell(h, (x_i, y_i)) \]
Classe de hipóteses \(\cH \subseteq \cY^{\cX}\)
Uma classe de hipóteses \(\cH\) é Provavelmente Aproximadamente Correto (PAC) aprendível agnosticamente se existe um algoritmo \(A \colon (\cX \times \cY)^* \to \cH\) tal que
então \[ \prob \big( L_{\cD}(A(S)) - \inf_{h \in \cH} L_{\cD}(h) \leq \eps \big) > 1 - \delta \]
\[ \ERM_\cH(S) \in \argmin_{h \in \cH} L_{S}(h) \]
No caso realizável, se \(S \sim \cD^m\), então com probabilidade pelo menos \(1 - \delta\) \[ L_{\cD}\big(\ERM_\cH(S)\big) \leq \frac{\log |\cH| + \log\frac{1}{\delta}}{m} \]
Seja \(S \sim \cD^m\). Então, com probabilidade pelo menos \(1 - \delta\) \[ L_{\cD}(\ERM_{\cH}(S)) - \inf_{h \in \cH} L_{\cD}(h) \leq \sqrt{\frac{2(\log(|\cH|+1) + \log\frac{1}{\delta})}{m}} \]
Na lista 1, vimos que a classe de thresholds é PAC-aprendível:
\[
\cH := \{ \ones[x \geq \tau] \colon \tau \in \bR\} \quad \text{com}~\cX = \bR.
\]
Para o caso realizável e \(\cH\) de thresholds, se \(S \sim \cD^m\), então \[ L_{\cD}(\ERM_{\cH}(S)) \leq \frac{\log\frac{1}{\delta}}{m} \quad \text{com prob.}~\geq 1-\delta \]
No entanto, nem todo \(\cH\) é PAC-aprendível.
Exemplos: \(\cH = \cY^\cX\) ou \(\cH = \{x \mapsto \sin(\omega \cdot x): \omega \in \bR\}\)
No caso realizável:
A função de crescimento de \(\cH\) é dada por \[ \Pi_{\cH}(m) = \max_{x_1, \dotsc, x_m \in \cX} \big|\big\{{(h(x_1), \dotsc, h(x_m))} : h \in \cH\big\}\big| \]
Intuição: Mesmo que \(|\cH| = \infty\), o que importa é o comportamento no conj. de treino \(S\)
Cota da união em \(\cH\) restrito a \(S\) ao invés de \(\cH\) inteiro.
Eq. 3.23 de [MRT] Com probabilidade pelo menos \(1 - \delta\), \[ L_{\cD}(h) - L_{S}(h) \leq \sqrt{ \frac{8(\log(4 \cdot \Pi_{\cH}(2m)) + \log(1/\delta))}{m}} \qquad \forall h \in \cH. \]
O que importa não é o valor de \(\Pi_{\cH}(m)\), mas sim seu crescimento
\(\Pi_{\cH}(m) \leq m^d\) para algum \(d\) e todo \(m\) é suficiente para PAC-aprendizado
\(\Pi_{\cH}(m)\) pode ser difícil de calcular
A dimensão VC de \(\cH\) é dado por \[ \VC(\cH) := \sup \{m \in \bN \colon \Pi_{\cH}(m) = 2^m\} \]
Note que \(\VC(\cH) = d\) se e somente se:
Pergunta: Podemos controlar a função de crescimento em termos da dimensão VC?
Lema de Sauer Se \(\cH \subseteq {\{0,1\}}^\cX\), então para todo \(m \geq 0\) \[ \Pi_{\cH}(m) \leq \sum_{i = 0}^{\VC(\cH)} \binom{m}{i}. \] Em particular, se \(m \geq \VC(\cH)\), \[ \Pi_{\cH}(m) \leq \Big(\frac{e m }{\VC(\cH)}\Big)^{\VC(\cH)}. \]
O Lema de Sauer junto da generalização usando \(\Pi_{\cH}(m)\) nos levam à seguinte garantia:
Se \(m \geq \VC(\cH)\), com probabilidade pelo menos \(1 - \delta\), \[ L_{\cD}(h) - L_{S}(h) \leq \sqrt{\frac{8}{m}} \cdot \sqrt{ \VC(\cH) \log(4 e m) + \log(1/\delta)} \qquad \forall h \in \cH. \]
Em particular, \(\cH\) é PAC-aprendível se \(|\VC(\cH)| < \infty\).
Além disso, temos a seguinte impossibilidade.
Se \(\VC(\cH) = \infty\), então \(\cH\) não é PAC-aprendível.
Diversos tópicos fundamentais em generalização que estamos pulando:
Ainda é um tópico com pesquisa interessante
Para cada rodada \(t = 1, \dotsc, T\):
Assim como no aprendizado estatístico, vamos começar pelo caso realizável:
Temos uma classe de hipóteses \(\cH \subseteq \cY^\cX\) conhecida, e existe \(h^* \in \cH\) tal que \[ y_t = h^*(x_t) \quad \text{para todo}~t \in [T] := \{1, \dotsc, T\}. \]
Importante: não assumimos mais nada sobre o adversário
Pergunta Qual o número máximo de erros que o algoritmo pode fazer?
Vamos primeiro considerar o caso finito: \(|\cH| < \infty\).
Ideia: A cada rodada \(t\), o jogador escolhe uma hipótese que concorda com as rodadas anteriores: \[ \cV_t := \{ h \in \cH \;\colon\; h(x_s) = y_s~\text{para todo}~s < t \} \]
Na rodada \(t \in [T]\) , O algoritmo CONSISTENTE
Para \(p_t\) dado por CONSISTENTE, \[ \sum_{t = 1}^T \ones[p_t \neq y_t] \leq |\cH| - 1 \]
Podemos fazer algo muito melhor que CONSISTENTE.
Ideia: Predizer de acordo com a maioria a cada rodada.
Na rodada \(t \in [T]\) , O algoritmo HALVING
Para \(p_t\) dado por HALVING, \[ \sum_{t = 1}^T \ones[p_t \neq y_t] \leq \log_2(|\cH|) \]
Nenhum dos dois algoritmos tem garantias no número de erros quando \(|\cH| = \infty\)
HALVING não está nem bem definido
Vamos começar interpretando as estratégias do adversário como uma árvore binária de profundidade \(T\).
Uma árvore de estratégia (do adversário) é uma árvore binária completa de altura \(T\) com conjunto de vértices é \(v_1, \dotsc, v_{2^{T+1} -1} \in \cX\) com \(v_1\) de raiz.
Arestas e Notação:
\(\DESC(v_i,0) := v_{2i}\) (filho esquerdo de \(v\))
\(\DESC(v,1) := v_{2i + 1}\) (filho direito de \(v\))
As escolhas do adversário são dadas pela árvore. Começando pela raiz \(v = v_1\)
Jogador erra em toda rodada.
Adversário ainda é realizado por \(\cH\)?
Depende de \(\cH\) e da árvore!
Uma árvore de estratégia com vértices \((v_1, \dotsc, v_{2^{T+1}-1})\) é fragmentada por \(\cH\) se para todo \(y \in \{0,1\}^T\) , definindo \(x_1 = v_1\) e \[ x_{t+1} = \DESC(x_{i}, y_i) \quad \text{para todo}~t \in [T-1], \] existe \(h \in \cH\) tal que \(h(x_t) = y_t\) para todo \(t \in [T]\).
Uma árvore de estratégia com vértices \((v_1, \dotsc, v_{2^{T + 1}-1})\) é fragmentada por \(\cH\) se para todo \(y \in \{0,1\}^T\) , definindo \(x_1 = v_1\) e \[ x_{t+1} = \DESC(x_{i}, y_i) \quad \text{para todo}~t \in [T-1], \] existe \(h \in \cH\) tal que \(h(x_t) = y_t\) para todo \(t \in [T]\).
Assim como em aprendizado estatístico, a ideia de fragmentação nos leva a uma noção de dimensão de \(\cH\)
A dimensão de Littlestone \(\LDim(\cH)\) de \(\cH\) o maior \(T \in \bN\) tal que existe uma árvore de estratégia de profundiade \(T\) fragmentada por \(\cH\)
Nenhum algoritmo pro jogador contra um adversário realizado por \(\cH\) pode garantir menos que \(\LDim(\cH)\) erros.
;