wie man mit matchpattern () bestimmte Aminosäuren in einer Datei mit vielen Sequenzen (.fasta) in R findet
Ich habe eine Datei (mydata.txt), die viele Exon-Sequenzen mit enthältFasta Format. Ich möchte Start ('atg') und Stop ('taa', 'tga', 'tag') Codons für jede DNA Sequenz finden (unter Berücksichtigung des Frames). Ich habe versucht mitmatchPattern
(eine Funktion aus demBiostrings
R-Paket), um diese Aminosäuren zu finden:
Als Beispiel könnte mydata.txt sein:
>a
atgaatgctaaccccaccgagtaa
>b
atgctaaccactgtcatcaatgcctaa
>c
atggcatgatgccgagaggccagaataggctaa
>d
atggtgatagctaacgtatgctag
>e
atgccatgcgaggagccggctgccattgactag
file=read.fasta(file="mydata.txt")
matchPattern( "atg" , file)
Hinweis: read.fasta ist eine Funktion inseqinr
Paket, das zum Importieren von Dateien im Fasta-Format verwendet wurde.
Aber dieser Befehl hat nicht funktioniert! Wie kann ich diese Funktion verwenden, um Start- und Stoppcodons in jeder Exonsequenz zu finden? (ohne Frame Shifting)