Extrahieren von Spalten (durch Leerzeichen oder Tabulatoren getrennt) aus einer Textdatei unter Linux
Ich habe sehr große Genotyp-Dateien, die in R grundsätzlich nicht zu öffnen sind. Daher versuche ich, die gewünschten Zeilen und Spalten mithilfe der Linux-Befehlszeile zu extrahieren. Zeilen sind mit Kopf / Schwanz recht einfach, aber ich habe Schwierigkeiten herauszufinden, wie ich mit den Spalten umgehen soll.
Wenn ich versuche, den 100-105sten Tabulator oder die durch Leerzeichen begrenzte Spalte mit zu extrahieren
cut -c100-105 myfile >outfile
Dies funktioniert offensichtlich nicht, wenn in jeder Spalte Zeichenfolgen mit mehreren Zeichen enthalten sind. Gibt es eine Möglichkeit, cut mit geeigneten Argumenten so zu ändern, dass die gesamte Zeichenfolge in einer Spalte extrahiert wird, wobei Spalten als Leerzeichen oder Tabulatoren (oder andere Zeichen) mit Trennzeichen definiert sind?