Wie Trennzeichen in Pandas read_csv flexibler wrt Leerzeichen zu machen?
Ich muss einen Datenrahmen mit Daten erstellen, die in einer Datei gespeichert sind. Dafür möchte ich nutzenread_csv
Methode. Das Trennzeichen ist jedoch nicht sehr regelmäßig. Einige Spalten sind durch Tabulatoren getrennt (\t
), andere werden durch Leerzeichen getrennt. Darüber hinaus können einige Spalten durch 2 oder 3 oder mehr Leerzeichen oder sogar durch eine Kombination von Leerzeichen und Tabulatoren getrennt werden (zum Beispiel 3 Leerzeichen, zwei Tabulatoren und dann 1 Leerzeichen).
Gibt es eine Möglichkeit, Pandas anzuweisen, diese Dateien richtig zu behandeln?
Übrigens habe ich dieses Problem nicht, wenn ich Python verwende. Ich benutze:
for line in file(file_name):
fld = line.split()
Und es funktioniert perfekt. Es ist egal, ob zwischen den Feldern zwei oder drei Leerzeichen stehen. Selbst Kombinationen von Leerzeichen und Tabulatoren verursachen keine Probleme. Können Pandas dasselbe tun?