как использовать matchpattern (), чтобы найти определенную аминокислоту в файле с множеством последовательностей (.fasta) в R
У меня есть файл (mydata.txt), который содержит много последовательностей экзонов сFASTA формат. Я хочу найти стартовые ('atg') и стоповые ('taa', 'tga', 'tag') кодоны для каждой последовательности ДНК (с учетом фрейма). Я пытался с помощьюmatchPattern
(функция изBiostrings
R пакет), чтобы найти эти аминокислоты:
В качестве примера mydata.txt может быть:
>a
atgaatgctaaccccaccgagtaa
>b
atgctaaccactgtcatcaatgcctaa
>c
atggcatgatgccgagaggccagaataggctaa
>d
atggtgatagctaacgtatgctag
>e
atgccatgcgaggagccggctgccattgactag
file=read.fasta(file="mydata.txt")
matchPattern( "atg" , file)
Примечание: read.fasta - это функция вseqinr
пакет, который используется для импорта файлов в формате fasta.
Но эти команды не сработали! Как я могу использовать эту функцию, чтобы найти стартовые и стоп-кодоны в каждой последовательности экзонов? (без смещения кадра)