Comprimento da sequência do arquivo FASTA
Eu tenho o seguinte arquivo FASTA:
>header1
CGCTCTCTCCATCTCTCTACCCTCTCCCTCTCTCTCGGATAGCTAGCTCTTCTTCCTCCT
TCCTCCGTTTGGATCAGACGAGAGGGTATGTAGTGGTGCACCACGAGTTGGTGAAGC
>header2
GGT
>header3
TTATGAT
Minha saída desejada:
>header1
117
>header2
3
>header3
7
# 3 sequences, total length 127.
Este é o meu código:
awk '/^>/ {print; next; } { seqlen = length($0); print seqlen}' file.fa
A saída que recebo com esse código é:
>header1
60
57
>header2
3
>header3
7
Preciso de uma pequena modificação para lidar com várias linhas de sequência.
Eu também preciso de uma maneira de ter o total de seqüências e comprimento total. Qualquer sugestão será bem-vinda ... No bash ou awk, por favor. Sei que é fácil fazê-lo no Perl / BioPerl e, na verdade, tenho um script para fazê-lo dessa maneira.