Título: Introdução ao Aprendizado por Reforço em Lote Palestrante: Ricardo Hermann Resumo: O Aprendizado por Reforço lida com problemas de tomada de decisão sequencial sob incerteza, onde as transições e recompensas do ambiente são desconhecidas. O objetivo do agente é encontrar uma política de comportamento, escolhendo ações apropriadas para cada estado, de modo a otimizar algum critério de desempenho. Devido à incerteza inerente neste tipo de problema, o agente deve interagir com o ambiente para obter experiências, a fim de atualizar sua estimativa do valor de estados e ações. Neste seminário, faremos uma revisão da área de Aprendizado por Reforço em Lote, que utilizam um histórico de interações passadas para obter maior eficiência de utilização dos dados, ou seja, que conseguem aprender com menos interações com o ambiente. Com essa abordagem, agentes podem utilizar bancos de dados de processos ou históricos de dados de sensores e controle a fim de acelerar a convergência da função de valor em problemas reais.