IME-USP

Clusterização baseada em modelos de mistura gaussianas com covariáveis

Defesa de Doutorado – Programa de Pós-Graduação em Ciência da Computação

Nome: Carlos Eduardo Martins Relvas
Orientador: Prof. Dr. André Fujita

Link para transmissão ao vivo: meet.google.com/fpk-esei-hog

Resumo: Resumo Frequentemente, o processo de agrupamento é a primeira etapa em diversos projetos de análises de dados. A clusterização permite identificar padrões que não foram notados antes e é muito útil para identificar novas hipóteses. No entanto, um desafio na análise de dados empíricos ´e a presença de covariáveis, que podem mascarar a estrutura de clusterização obtida. Por exemplo, suponha que estamos interessados em agrupar um conjunto de indivíduos em um grupo de controle e pacientes com câncer. Neste caso, o algoritmo de clusterização poderia agrupar as observações apenas em jovens e velhos. Isto pode acontecer pois a idade do diagnóstico é associada com o câncer. Com isso em mente, desenvolvemos o CEM-Co, um algoritmo de clusterização baseado em modelos que remove/minimiza os efeitos das covariáveis durante o processo de clusterização. Aplicamos o CEM-Co em uma base de dados de expressão gênica composta de 129 pacientes de câncer de pulmão do estágio I. Como resultado, foi possível identificar um subgrupo de pacientes com taxa de sobrevida estatisticamente menor, o que não foi possível ao aplicarmos outras abordagens de agrupamento. Palavras chaves: Algoritmo de mistura gaussiana, clusterização, algoritmo EM, efeitos de covariáveis, BIC, testes de hipóteses.

Data

04/12/2020
Expired!

Tempo

14:00 - 18:00
Categoria