Palestrante: ------------------- André da Motta Salles Barreto possui graduação em Ciência da Computação pela Universidade Federal de Juiz de Fora (2000) e mestrado em Computação de Alto Desempenho (Interdisciplinar) pela Universidade Federal do Rio de Janeiro (2003). No ano de 2008 encerrou o seu doutorado, também na área Interdisciplinar de Computação de Alto Desempenho da UFRJ. Durante o período de Julho de 2004 a Janeiro de 2006 André Barreto esteve na Colorado State University, EUA, como parte do seu doutorado-sanduíche. Tem experiência na área de Inteligência Artificial, com ênfase em Aprendizagem de Máquina, atuando principalmente nos seguintes temas: aprendizagem por reforço (reinforcement learning), computação evolucionista e redes neurais. Título: -------------- Soluções Aproximadas para Problemas de Tomada de Decisão Seqüencial Resumo: -------------- Imagine programar um computador para realizar uma tarefa difícil utilizando recompensas e punições apenas, como faz um adestrador de animais. Essa é a proposta da programação dinâmica e da aprendizagem por reforço, que lidam com os chamados problemas de tomada de decisão seqüencial. Tarefas de controle, alocação ótima de recursos e planejamento seqüencial são apenas alguns exemplos de problemas que podem ser resolvidos utilizando essas abordagens. Embora a programação dinâmica e a aprendizagem por reforço sejam bem fundamentadas teoricamente, a sua aplicação pode se mostrar problemática na prática. Isso porque ambas as disciplinas sofrem de uma séria questão de escalabilidade: problemas de tomada de decisão com um número razoavelmente grande de estados podem inviabilizar o seu uso, devido ao alto custo computacional dos cálculos envolvidos. A solução mais direta para essa questão, que seria o uso de aproximadores convencionais, como as redes neurais, pode tornar os algoritmos instáveis. A palestra a se realizar será dedicada à discussão de estratégias para a solução de problemas de tomada de decisão seqüencial de grande porte. Uma técnica de aproximação estável para a programação dinâmica e a aprendizagem por reforço, chamada fatoração estocástica, será apresentada. Além dos aspectos teóricos dessa abordagem, serão discutidos alguns algoritmos que podem ser derivados da fatoração estocástica. A efetividade de tais algoritmos será analisada através de experimentos em que o seu desempenho é contrastado com o de abordagens alternativas.