Palestrante:
-------------------
André da Motta Salles Barreto

possui graduação em Ciência da Computação pela Universidade Federal de
Juiz de Fora (2000) e mestrado em Computação de Alto Desempenho
(Interdisciplinar) pela Universidade Federal do Rio de Janeiro (2003).
No ano de 2008 encerrou o seu doutorado, também na área
Interdisciplinar de Computação de Alto Desempenho da UFRJ. Durante o
período de Julho de 2004 a Janeiro de 2006 André Barreto esteve na
Colorado State University, EUA, como parte do seu doutorado-sanduíche.
Tem experiência na área de Inteligência Artificial, com ênfase em
Aprendizagem de Máquina, atuando principalmente nos seguintes temas:
aprendizagem por reforço (reinforcement learning), computação
evolucionista e redes neurais.

Título:
--------------
Soluções Aproximadas para Problemas de Tomada de Decisão Seqüencial


Resumo:
--------------
Imagine programar um computador para realizar uma tarefa difícil
utilizando recompensas e punições apenas, como faz um adestrador de
animais. Essa é a proposta da programação dinâmica e da aprendizagem
por reforço, que lidam com os chamados problemas de tomada de decisão
seqüencial. Tarefas de controle, alocação ótima de recursos e
planejamento seqüencial são apenas alguns exemplos de problemas que
podem ser resolvidos utilizando essas
abordagens. Embora a programação dinâmica e a aprendizagem por reforço
sejam bem fundamentadas teoricamente, a sua aplicação pode se mostrar
problemática na prática. Isso porque ambas as disciplinas sofrem de
uma séria questão de escalabilidade: problemas de tomada de decisão
com um número razoavelmente grande de estados podem inviabilizar o seu
uso, devido ao alto custo computacional dos cálculos envolvidos. A
solução mais direta para essa questão, que seria o uso de
aproximadores convencionais, como as redes neurais, pode tornar os
algoritmos instáveis. A palestra a se realizar será dedicada à
discussão de estratégias para a solução de problemas de tomada de
decisão seqüencial de grande porte. Uma técnica de aproximação estável
para a programação dinâmica e a aprendizagem por reforço, chamada
fatoração estocástica, será apresentada. Além dos aspectos teóricos
dessa abordagem,
serão discutidos alguns algoritmos que podem ser derivados da
fatoração estocástica. A efetividade de tais algoritmos será analisada
através de experimentos em que o seu desempenho é contrastado com o de
abordagens alternativas.