jak używać matchpattern (), aby znaleźć pewien aminokwas w pliku z wieloma sekwencjami (.fasta) w R

Question

Jul 29, 2013, 12:12 AM

jak używać matchpattern (), aby znaleźć pewien aminokwas w pliku z wieloma sekwencjami (.fasta) w R

Mam plik (mydata.txt) zawierający wiele sekwencji egzonówfasta format. Chcę znaleźć kodony start („atg”) i stop („taa”, „tga”, „tag”) dla każdej sekwencji DNA (biorąc pod uwagę ramkę). Próbowałem użyćmatchPattern (funkcja zBiostrings Pakiet R), aby znaleźć te aminokwasy:

Przykładem może być mydata.txt:

>a
atgaatgctaaccccaccgagtaa
>b
atgctaaccactgtcatcaatgcctaa
>c
atggcatgatgccgagaggccagaataggctaa
>d
atggtgatagctaacgtatgctag
>e
atgccatgcgaggagccggctgccattgactag

file=read.fasta(file="mydata.txt") 
matchPattern( "atg" , file)

Uwaga: read.fasta jest funkcją wseqinr pakiet używany do importowania plików w formacie fasta.

Ale te polecenia nie zadziałały! Jak mogę użyć tej funkcji, aby znaleźć kodony start i stop w każdej sekwencji egzonu? (bez przesuwania ramki)