Bolsa de Iniciação Científica PIBIC
Reconhecimento de Padrões em
Bioinformática
Data Analysis Group - Escola de
Artes Ciências e Humanidades
A grande quantidade de dados disponíveis sobre seqüências genômicas e estrutura de proteínas, bem como a disponibilidade sem precedentes de recursos computacionais, abrem novas oportunidades de pesquisa na análise e mineração de dados de origem biológica. O desenvolvimento de pessoal de formação híbrida em sistemas de informação e rudimentos de biologia molecular capazes de atuar nessa fronteira é patente. Com o desenvolvimento de novas técnicas estatísticas e sua aplicação às gigantescas bases de dados proteômicos e genômicos é plausível que no futuro sejamos capazes de avançar expressivamente em nosso conhecimento do funcionamento dos organismos vivos e até mesmo de desenvolvermos novos medicamentos sob medida de forma automática a partir da análise estatística da estrutura das proteínas envolvidas e de suas relações.
O objetivo deste projeto é introduzir o estudante aos rudimentos da bioinformática e às modernas técnicas estatísticas do aprendizado de máquinas (machine learning).
Os alicerces deste projeto de
iniciação científica são: (1) introdução à bioinformática, (2) introdução às
técnicas de machine learning, (3) introdução à programação científica,
(4) introdução prática à pesquisa na área através da aplicação prática da nova
técnica conhecida como Clustering Super-paramagnético a dados
estruturais cedidos pela EMBRAPA Informática Agropecuária.
O aluno seguirá um cronograma de leituras e exercícios práticos na área de bioinformática e machine learning. Para introdução à bioinformática serão estudados e resumidos [1] e [2]. Para introdução às técnicas de machine learning serão estudadas partes escolhidas de [3], [4] e [5]. A introdução à programação científica envolverá a implementação de análises mais simples em C, utilizando a biblioteca científica GSL e em MATLAB ou um de seus clones (Octave ou Scilab). Na fase final o aluno será introduzido à técnica de Clustering Super-paramagnético [6] através da análise de dados cedidos pela EMBRAPA Informática Agropecuária.
Os principais momentos deste programa de iniciação científica são:
NOVEMBRO/05 O aluno deverá ter completado a leitura de [1] e produzirá um resumo em português das principais idéias da bioinformática.
FEVEREIRO/06 O aluno deverá produzir um resumo em português das principais idéias das redes neurais artificiais, a saber: redes neurais multicamada, algoritmos de aprendizagem, aprendizado e generalização e técnicas bayesianas.
JUNHO/06 O aluno terá completado uma implementação (em C ou MATLAB) do algoritmo de clustering superparamagnético.
[1] Atwood T.K., Introduction to Bioinformatics,
Prentice Hall, 1999.
[2] Baldi P., Brunak, S., Bioinformatics: The
Machine Learning Approach, MIT Press, 2001.
[3] Duda R.O., Hart P. E. e Stork D.G., Pattern
Classification, Wiley Interscience, 2000.
[4] Bishop
C. M., Neural Networks for Pattern Recognition,Oxford University Press, 1996.
[5] Sivia
D.S., Data Analysis: A Bayesian Tutorial,Oxford University Press, 2000.
[6] Blatt
M., Wiseman S.e Domany E.,
Superparamagnetic clustering of data,
Physical Review Letters 76 (18) 3251-3254 (1996).