Neste projeto vamos fazer o alinhamento de seqüências de DNA.
Faremos alinhamento da primeira região espaçadora ITS1 (Internal
Transcribed Spacer) do gene do rDNA de
alguns moluscos. Os genes rDNA (DNA ribossômico) são genes que
codificam rRNA.
Os moluscos estudados são hospedeiros intermediários
da
O ITS1 é um trecho do DNA que é copiado para um RNA precursor. Esse trecho é removido e não aparece no rRNA. Para mais detalhes veja DNA in a cell. Esse trecho do RNA, bem como o trecho da segunda região espaçadora ITS2, é útil para estudos de filogênia. Recomendo que todos dêem uma olhada nesse paper.
Minha motivação para este projeto veio do trabalho
Iremos buscar os nossos dados no GenBank. Uma boa página para começar a dar uma olhada no GenBank é NCBI GenBank Overview. Para obter as seqüências, vamos usar a página Entrez cross-database search.
As seqüências de nucleotídeos a serem procuradas têm
Uma vez encontrada uma seqüência no GenBank, você verá uma página com várias observações sobre a seqüência. A seqüência do DNA propriamente dita está no fim da página. Uma das seqüências conterá mais do que o ITS1. Você precisará separar da seqüência toda somente o ITS1.
> AY425730 590 bp aaaggtttct gtttcgcttt atcgatgata aacgaaagca gcaaaacaag tcaaaaactc tcgtctcatc gccggccggg gcgtcgaagc gcacgaagcg cgctctggct ggtacgaccg ctcctttgtc ggggtaccta cttgtcctcg atgcgaccca cggtggcggc ttgagcccac cccttaataa gggggggggg gctcgccggg tcgcgaggtt caaagagtgg ccagctttcc gtcctgtact cgctctctat agtacaactg ctctcggacg gagttggcga ccgccccatt cacatttgtc cttttgagaa agtctccagg gtacctatgc cccctgacgg ctgctggcac accgaccacg ctctgtaggt gtgcgtaagt ggcaaagtct cgagggtaga gagctcccac gctcgtcttg tgggccgcga ggtttaaaga gccggtcggc atgctgctgc tctgcggcat gcaggccggc cgccctggct ttcttacacg ttacctttac acaaactcat tgacacattg tgaaaatttt tttccaaact atgggtgggc aacgctatac acmaaaagtt > AY425740 585 bp aaaggtttct gtttcgcttt atcgcacgat aaacgaaagc agcaaaacaa gccaaaaact cctcgtctca ttgccggccg gggcgtcgaa gcgcacgaag cgccgctctg gctggtacga ccgctccttt gtcggggtac ctactagtcc tcgatgcgat ccacggtggc ggcttagagc cctcaagggg ctcgccgggt cgcgaggttc aaagagtggc cagcttccgt cttgtactcg ctctctatag tacaactgct cttggacgga gttggcgacc gccccaattt tttttcatgt ccttctgaga aagtctccag ggtacctatg ccccctgacg gctgctggca caccgaacac gctctgtagg ttgtgcgtaa gcggccaagt ctcgagggta gagagctccc acgctcgtct tgtgggccgc gaggtttaaa gagccggtcg gctgctgctg ctctgcggca tgtaggccgg ccgccctggc tttcttacac gttaccttta cacaaactca tgtcacattg tgataattta tttcaaaact atggtggcaa cgctatacac ccaaaagtaa caact
Esses subconjuntos são usados quando na seqüência podem aparecer qualquer um dos nucleotídeos representados pelo subconjunto ou quando há incerteza sobre qual nucleotídeo que aparece na posição. Mais detalhes podem ser encontrados em http://www.chem.qmul.ac.uk/iubmb/misc/naseq.html#200. Reproduzo abaixo a tabela de recomendações do Nomenclature Committee of the International Union of Biochemistry (NC-IUB) e do International Union of Pure and Applied Chemistry (IUPAC) para a representação dos subconjuntos. Cada um desses símbolos, e não outros, podem fazer parte da seqüência dada de DNA.
Symbol | Meaning | Origin of designation |
---|---|---|
G | G | Guanine |
A | A | Adenine |
T | T | Thymine |
C | C | Cytosine |
R | G or A | puRine |
Y | T or C | pYrimidine |
M | A or C | aMino |
K | G or T | Keto |
S | G or C | Strong interaction (3 H bonds) |
W | A or T | Weak interaction (2 H bonds) |
H | A or C or T | not-G, H follows G in the alphabet |
B | G or T or C | not-A, B follows A |
V | G or C or A | not-T (not-U), V follows U |
D | G or A or T | not-C, D follows C |
N | G or A or T or C | aNy |
Você deve supor como alinhamento de bases iguais o alinhamento de N (aNy) com qualquer outra base.
A entrada do seu programa pode ser um arquivo contendo duas seqüências
a serem alinhadas ou um arquivo contendo todas as seqüências. O seu
programa deve fornecer como saída a pontuação (similaridade) entre os
pares de seqüências e uma representação do alinhamento propriamente
dito. Como exemplo, reproduzo abaixo trechos produzidos pelo programa
CLUSTAL W (1.83) Multiple Sequence Alignments Sequence format is Pearson Sequence 1: AY425730 590 bp Sequence 2: AY425740 585 bp [...] Group 1: Sequences: 2 Score:9937 [...] AY425730 AAAGGTTTCTGTTTCGCTTTATCG-ATGATAAACGAAAGCAGCAAAACAAGTCAAAAACT AY425740 AAAGGTTTCTGTTTCGCTTTATCGCACGATAAACGAAAGCAGCAAAACAAGCCAAAAACT ************************ * ************************ ******** AY425730 C-TCGTCTCATCGCCGGCCGGGGCGTCGAAGCGCACGAAGCGC-GCTCTGGCTGGTACGA AY425740 CCTCGTCTCATTGCCGGCCGGGGCGTCGAAGCGCACGAAGCGCCGCTCTGGCTGGTACGA * ********* ******************************* **************** AY425730 CCGCTCCTTTGTCGGGGTACCTACTTGTCCTCGATGCGACCCACGGTGGCGGCTTGAGCC AY425740 CCGCTCCTTTGTCGGGGTACCTACTAGTCCTCGATGCGATCCACGGTGGCGGCTTAG--- ************************* ************* *************** AY425730 CACCCCTTAATAAGGGGGGGGGGGCTCGCCGGGTCGCGAGGTTCAAAGAGTGGCCAGCTT AY425740 -AGCCCTCAA----------GGGGCTCGCCGGGTCGCGAGGTTCAAAGAGTGGCCAGCTT * **** ** **************************************** AY425730 TCCGTCCTGTACTCGCTCTCTATAGTACAACTGCTCTCGGACGGAGTTGGCGACCGCCCC AY425740 -CCGTCTTGTACTCGCTCTCTATAGTACAACTGCTCTTGGACGGAGTTGGCGACCGCCCC ***** ****************************** ********************** AY425730 ATTCACATTT---GTCCTTTTGAGAAAGTCTCCAGGGTACCTATGCCCCCTGACGGCTGC AY425740 AATTTTTTTTCATGTCCTTCTGAGAAAGTCTCCAGGGTACCTATGCCCCCTGACGGCTGC * * *** ****** **************************************** AY425730 TGGCACACCGACCACGCTCTGTAGGT-GTGCGTAAGTGGCAAAGTCTCGAGGGTAGAGAG AY425740 TGGCACACCGAACACGCTCTGTAGGTTGTGCGTAAGCGGCCAAGTCTCGAGGGTAGAGAG *********** ************** ********* *** ******************* AY425730 CTCCCACGCTCGTCTTGTGGGCCGCGAGGTTTAAAGAGCCGGTCGGCATGCTGCTGCTCT AY425740 CTCCCACGCTCGTCTTGTGGGCCGCGAGGTTTAAAGAGCCGGTCGGC-TGCTGCTGCTCT *********************************************** ************ AY425730 GCGGCATGCAGGCCGGCCGCCCTGGCTTTCTTACACGTTACCTTTACACAAACTCATTGA AY425740 GCGGCATGTAGGCCGGCCGCCCTGGCTTTCTTACACGTTACCTTTACACAAACTCAT-GT ******** ************************************************ * AY425730 CACATTGTGAAAATTTTTTTCCAAACTATGGGTGGGCAACGCTATACACMAAAAGTT--- AY425740 CACATTGTGATAATTTATTTCAAAACTATGG--TGGCAACGCTATACACCCAAAAGTAAC ********** ***** **** ********* *************** *** * AY425730 ---- AY425740 AACT