Wie Trennzeichen in Pandas read_csv flexibler wrt Leerzeichen zu machen?

Question

Feb 22, 2013, 03:43 PM

Wie Trennzeichen in Pandas read_csv flexibler wrt Leerzeichen zu machen?

Ich muss einen Datenrahmen mit Daten erstellen, die in einer Datei gespeichert sind. Dafür möchte ich nutzenread_csv Methode. Das Trennzeichen ist jedoch nicht sehr regelmäßig. Einige Spalten sind durch Tabulatoren getrennt (\t), andere werden durch Leerzeichen getrennt. Darüber hinaus können einige Spalten durch 2 oder 3 oder mehr Leerzeichen oder sogar durch eine Kombination von Leerzeichen und Tabulatoren getrennt werden (zum Beispiel 3 Leerzeichen, zwei Tabulatoren und dann 1 Leerzeichen).

Gibt es eine Möglichkeit, Pandas anzuweisen, diese Dateien richtig zu behandeln?

Übrigens habe ich dieses Problem nicht, wenn ich Python verwende. Ich benutze:

for line in file(file_name):
   fld = line.split()

Und es funktioniert perfekt. Es ist egal, ob zwischen den Feldern zwei oder drei Leerzeichen stehen. Selbst Kombinationen von Leerzeichen und Tabulatoren verursachen keine Probleme. Können Pandas dasselbe tun?