IME-USP

Visual Analytics for Machine Learning Computing and Leveraging Decision Boundary Maps

Nome : Francisco Caio Maia Rodrigues
Orientador: Prof. Dr. Roberto Hirata Junior
Título:  Visual Analytics for Machine Learning Computing and Leveraging Decision Boundary Maps
Data: 09/11/2020
Horário: 10h00
Resumo do trabalho:  Francisco Caio Maia Rodrigues. Visual Analytics for Machine Learning Computing and leveraging decision boundary maps. Tese (Doutorado). Instituto de Matemática e Estatística, Universidade de São Paulo, São Paulo, 2020. Modelos de aprendizado de máquina chamados classificadores constroem fronteiras de decisão que particiona um certo espaço de dados em um conjunto de regiões, associando-as a um rótulo. Entender a estrutura e forma de tais fronteiras de decisão pode ser de grande ajuda no uso prático de tais classificadores, respondendo, por exemplo, questões sobre como espera-se que certo modelo se comporte em uma região vazia do espaço. Além disso, tal entendimento pode ajudar a dar ideias que levem a melhoria do treino de um certo modelo, por exemplo através da indicação de onde mais dados de treino poderiam ser coletados. Nessa tese, propomos e exploramos métodos de visualização para a criação e o uso de modelos visuais das fronteiras de decisão inferidas por classificadores de aprendizado de máquina. Atualmente, métodos utilizados para visualizar o comportamento de um classificador treinado em um certo conjunto de dados fazem uso scatterplot, colorindo os pontos de acordo com a classe atribuída pelo modelo. Nesta tese, propomos uma técnica baseada em imagens para aprimorar tais visualizações. Nosso método amostra o espaço 2D de uma projeção, codificando nas cores dos pixels aspectos relevantes de um classificador treinado, como a maioria dos rótulos naquela região, o grau de confusão e a densidade de amostras, criando uma imagem densa das fronteiras inferidas em espaços de alta dimensão. O método proposto é simples de implementar, funciona para qualquer classificador e possui apenas dois parâmetros intuitivos. Demonstramos o uso da técnica proposta em diferentes datasets de alta dimensionalidade, classificadores, projeções diretas e inversas. No nosso conhecimento, nosso trabalho é o primeiro capaz de criar tais visualizações explícitas das fronteiras de classificadores, para qualquer dataset e classificador, sem necessidade do conhecimento do funcionamento de detalhes internos dos modelos. Baseado nas descrições visuais das fronteiras de decisão, nós desenvolvemos um workflow de visual analytics e uma ferramenta gráfica que permite aos usuários realizarem a rotulagem interativa de amostras. Mostramos ainda que o nosso método proposto de visualização é capaz de ajudar em cenários de rotulação, como é o caso de aprendizado ativo.

Data

09/11/2020
Expired!

Tempo

10:00 - 13:00
Categoria