cómo usar matchpattern () para encontrar cierto aminoácido en un archivo con muchas secuencias (.fasta) en R
Tengo un archivo (mydata.txt) que contiene muchas secuencias de exones confasta formato. Quiero encontrar los codones de inicio ('atg') y parada ('taa', 'tga', 'etiqueta') para cada secuencia de ADN (considerando el marco). Traté de usarmatchPattern
(una función de laBiostrings
Paquete R) para encontrar estos aminoácidos:
Como ejemplo, mydata.txt podría ser:
>a
atgaatgctaaccccaccgagtaa
>b
atgctaaccactgtcatcaatgcctaa
>c
atggcatgatgccgagaggccagaataggctaa
>d
atggtgatagctaacgtatgctag
>e
atgccatgcgaggagccggctgccattgactag
file=read.fasta(file="mydata.txt")
matchPattern( "atg" , file)
Nota: read.fasta es una función enseqinr
paquete que se utiliza para importar archivos de formato fasta.
¡Pero estos comandos no funcionaron! ¿Cómo puedo usar esta función para encontrar codones de inicio y parada en cada secuencia de exones? (sin cambio de marco)