cómo usar matchpattern () para encontrar cierto aminoácido en un archivo con muchas secuencias (.fasta) en R

Question

Jul 29, 2013, 12:12 AM

cómo usar matchpattern () para encontrar cierto aminoácido en un archivo con muchas secuencias (.fasta) en R

Tengo un archivo (mydata.txt) que contiene muchas secuencias de exones confasta formato. Quiero encontrar los codones de inicio ('atg') y parada ('taa', 'tga', 'etiqueta') para cada secuencia de ADN (considerando el marco). Traté de usarmatchPattern (una función de laBiostrings Paquete R) para encontrar estos aminoácidos:

Como ejemplo, mydata.txt podría ser:

>a
atgaatgctaaccccaccgagtaa
>b
atgctaaccactgtcatcaatgcctaa
>c
atggcatgatgccgagaggccagaataggctaa
>d
atggtgatagctaacgtatgctag
>e
atgccatgcgaggagccggctgccattgactag

file=read.fasta(file="mydata.txt") 
matchPattern( "atg" , file)

Nota: read.fasta es una función enseqinr paquete que se utiliza para importar archivos de formato fasta.

¡Pero estos comandos no funcionaron! ¿Cómo puedo usar esta función para encontrar codones de inicio y parada en cada secuencia de exones? (sin cambio de marco)