jak używać matchpattern (), aby znaleźć pewien aminokwas w pliku z wieloma sekwencjami (.fasta) w R
Mam plik (mydata.txt) zawierający wiele sekwencji egzonówfasta format. Chcę znaleźć kodony start („atg”) i stop („taa”, „tga”, „tag”) dla każdej sekwencji DNA (biorąc pod uwagę ramkę). Próbowałem użyćmatchPattern
(funkcja zBiostrings
Pakiet R), aby znaleźć te aminokwasy:
Przykładem może być mydata.txt:
>a
atgaatgctaaccccaccgagtaa
>b
atgctaaccactgtcatcaatgcctaa
>c
atggcatgatgccgagaggccagaataggctaa
>d
atggtgatagctaacgtatgctag
>e
atgccatgcgaggagccggctgccattgactag
file=read.fasta(file="mydata.txt")
matchPattern( "atg" , file)
Uwaga: read.fasta jest funkcją wseqinr
pakiet używany do importowania plików w formacie fasta.
Ale te polecenia nie zadziałały! Jak mogę użyć tej funkcji, aby znaleźć kodony start i stop w każdej sekwencji egzonu? (bez przesuwania ramki)