Jak uczynić separator w pandach read_csv bardziej elastycznym wrt białych znaków?
Muszę utworzyć ramkę danych przy użyciu danych przechowywanych w pliku. Do tego chcę użyćread_csv
metoda. Jednak separator nie jest bardzo regularny. Niektóre kolumny są oddzielone tabulatorami (\t
), inne są oddzielone spacjami. Ponadto niektóre kolumny mogą być oddzielone 2 lub 3 lub więcej spacjami lub nawet kombinacją spacji i zakładek (na przykład 3 spacje, dwie karty, a następnie 1 spacja).
Czy istnieje sposób, aby powiedzieć pandom, aby odpowiednio traktowali te pliki?
Nawiasem mówiąc, nie mam tego problemu, jeśli używam Pythona. Używam:
for line in file(file_name):
fld = line.split()
I działa doskonale. Nie ma znaczenia, czy między polami znajdują się 2 lub 3 przestrzenie. Nawet kombinacje spacji i kart nie powodują żadnych problemów. Czy pandy mogą zrobić to samo?