как использовать matchpattern (), чтобы найти определенную аминокислоту в файле с множеством последовательностей (.fasta) в R

У меня есть файл (mydata.txt), который содержит много последовательностей экзонов сFASTA формат. Я хочу найти стартовые ('atg') и стоповые ('taa', 'tga', 'tag') кодоны для каждой последовательности ДНК (с учетом фрейма). Я пытался с помощьюmatchPattern (функция изBiostrings R пакет), чтобы найти эти аминокислоты:

В качестве примера mydata.txt может быть:

>a
atgaatgctaaccccaccgagtaa
>b
atgctaaccactgtcatcaatgcctaa
>c
atggcatgatgccgagaggccagaataggctaa
>d
atggtgatagctaacgtatgctag
>e
atgccatgcgaggagccggctgccattgactag

file=read.fasta(file="mydata.txt") 
matchPattern( "atg" , file)

Примечание: read.fasta - это функция вseqinr пакет, который используется для импорта файлов в формате fasta.

Но эти команды не сработали! Как я могу использовать эту функцию, чтобы найти стартовые и стоп-кодоны в каждой последовательности экзонов? (без смещения кадра)

Ответы на вопрос(2)

Ваш ответ на вопрос