como usar matchpattern () para encontrar determinado aminoácido em um arquivo com muitas seqüências (.fasta) em R
Eu tenho um arquivo (mydata.txt) que contém muitas seqüências exon comfasta formato. Eu quero encontrar os códons start ('atg') e stop ('taa', 'tga', 'tag') para cada sequência de DNA (considerando o quadro). Eu tentei usarmatchPattern
(uma função doBiostrings
Pacote R) para encontrar esses aminoácidos:
Como exemplo, mydata.txt poderia ser:
>a
atgaatgctaaccccaccgagtaa
>b
atgctaaccactgtcatcaatgcctaa
>c
atggcatgatgccgagaggccagaataggctaa
>d
atggtgatagctaacgtatgctag
>e
atgccatgcgaggagccggctgccattgactag
file=read.fasta(file="mydata.txt")
matchPattern( "atg" , file)
Nota: read.fasta é uma função emseqinr
pacote que costumava importar arquivos de formato fasta.
Mas esses comandos não funcionaram! Como posso usar esta função para encontrar os códons de início e fim em cada seqüência do exon? (sem mudança de moldura)