wie man mit matchpattern () bestimmte Aminosäuren in einer Datei mit vielen Sequenzen (.fasta) in R findet

Question

Jul 29, 2013, 12:12 AM

wie man mit matchpattern () bestimmte Aminosäuren in einer Datei mit vielen Sequenzen (.fasta) in R findet

Ich habe eine Datei (mydata.txt), die viele Exon-Sequenzen mit enthältFasta Format. Ich möchte Start ('atg') und Stop ('taa', 'tga', 'tag') Codons für jede DNA Sequenz finden (unter Berücksichtigung des Frames). Ich habe versucht mitmatchPattern (eine Funktion aus demBiostrings R-Paket), um diese Aminosäuren zu finden:

Als Beispiel könnte mydata.txt sein:

>a
atgaatgctaaccccaccgagtaa
>b
atgctaaccactgtcatcaatgcctaa
>c
atggcatgatgccgagaggccagaataggctaa
>d
atggtgatagctaacgtatgctag
>e
atgccatgcgaggagccggctgccattgactag

file=read.fasta(file="mydata.txt") 
matchPattern( "atg" , file)

Hinweis: read.fasta ist eine Funktion inseqinr Paket, das zum Importieren von Dateien im Fasta-Format verwendet wurde.

Aber dieser Befehl hat nicht funktioniert! Wie kann ich diese Funktion verwenden, um Start- und Stoppcodons in jeder Exonsequenz zu finden? (ohne Frame Shifting)