Wyodrębnianie kolumn (rozdzielonych spacjami lub tabulatorami) z pliku tekstowego w systemie Linux
Mam bardzo duże pliki genotypów, których nie można otworzyć w R, więc próbuję wyodrębnić interesujące je wiersze i kolumny za pomocą wiersza poleceń linux. Rzędy są wystarczająco proste przy użyciu głowy / ogona, ale mam problem z ustaleniem, jak poradzić sobie z kolumnami.
Jeśli spróbuję wyodrębnić (powiedzmy) kartę 100-105 lub rozdzieloną spacjami kolumnę za pomocą
cut -c100-105 myfile >outfile
to oczywiście nie zadziała, jeśli w każdej kolumnie znajdują się ciągi wielu znaków. Czy jest jakiś sposób na zmodyfikowanie cięcia za pomocą odpowiednich argumentów, tak aby wyodrębnił cały łańcuch wewnątrz kolumny, gdzie kolumny są zdefiniowane jako spacja lub tabulator (lub jakikolwiek inny znak) rozdzielone?