Bolsa de Iniciação Científica PIBIC

 

Reconhecimento de Padrões em Bioinformática

Renato Vicente

Data Analysis Group - Escola de Artes Ciências e Humanidades

Universidade de São Paulo

 

Maio de 2005

Problema e Justificativa

 

A grande quantidade de dados disponíveis sobre seqüências genômicas e estrutura de proteínas, bem como a  disponibilidade sem precedentes de recursos computacionais,  abrem novas oportunidades de pesquisa  na análise e mineração de dados de origem biológica. O desenvolvimento de pessoal de formação híbrida em sistemas de informação e rudimentos de biologia molecular capazes de atuar nessa fronteira é patente.  Com o desenvolvimento de novas técnicas estatísticas e sua aplicação às gigantescas bases de dados proteômicos e genômicos é plausível que no futuro sejamos capazes de avançar expressivamente em nosso  conhecimento do funcionamento dos organismos vivos e até mesmo de desenvolvermos novos medicamentos sob medida  de forma automática a partir da análise estatística da estrutura das proteínas envolvidas  e de suas relações.  

 

Objetivos

 

O objetivo deste projeto é introduzir o estudante aos rudimentos da bioinformática e às modernas técnicas estatísticas do aprendizado de máquinas (machine learning).

 

 

Metodologia

 

Os alicerces deste projeto de iniciação científica são: (1) introdução à bioinformática, (2) introdução às técnicas de machine learning, (3) introdução à programação científica, (4) introdução prática à pesquisa na área através da aplicação prática da nova técnica conhecida como Clustering Super-paramagnético a dados estruturais cedidos pela  EMBRAPA Informática Agropecuária.

 

O aluno seguirá um cronograma de leituras e exercícios práticos na área de bioinformática e machine learning.  Para introdução à bioinformática serão estudados e resumidos [1] e [2]. Para introdução às técnicas de machine learning serão estudadas partes escolhidas de  [3], [4] e [5]. A introdução à programação científica envolverá a implementação de análises mais simples  em  C, utilizando a biblioteca científica GSL e em MATLAB ou um de seus clones (Octave ou Scilab). Na fase final o aluno será introduzido à técnica de  Clustering Super-paramagnético [6] através da análise de dados cedidos pela EMBRAPA Informática Agropecuária.

 

 

Cronograma

 

 Os principais momentos deste programa de iniciação científica são:

 

NOVEMBRO/05     O aluno deverá ter completado a leitura de [1] e produzirá um resumo em português das principais idéias da bioinformática. 

 

FEVEREIRO/06     O aluno deverá produzir um resumo em português das principais idéias das redes neurais artificiais, a saber: redes neurais multicamada, algoritmos de aprendizagem, aprendizado e generalização e técnicas bayesianas.

 

JUNHO/06              O aluno terá completado uma implementação (em C ou MATLAB)  do algoritmo de clustering  superparamagnético. 

 

 

 

Bibliografia

 

[1]  Atwood T.K., Introduction to Bioinformatics, Prentice Hall, 1999.

[2]  Baldi P., Brunak, S., Bioinformatics: The Machine Learning Approach, MIT Press, 2001.

[3]  Duda R.O., Hart P. E. e Stork D.G., Pattern Classification, Wiley Interscience, 2000.

[4] Bishop C. M., Neural Networks for Pattern Recognition,Oxford University Press, 1996.

[5] Sivia D.S., Data Analysis: A Bayesian Tutorial,Oxford University Press, 2000.

[6] Blatt M., Wiseman S.e Domany E.,  Superparamagnetic clustering of data,  Physical Review Letters 76 (18) 3251-3254 (1996).