https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html

Question

Jul 06, 2017, 12:17 PM

csv python loops pandas parallel-processing

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html

я есть CSV-файл 8 ГБ, и я не могу запустить код, так как он показывает ошибку памяти.

file = "./data.csv"
df = pd.read_csv(file, sep="/", header=0, dtype=str)

Я хотел бы разбить файлы на 8 небольших файлов («отсортированы по идентификатору») с помощью Python. И, наконец, иметь цикл, чтобы выходной файл имел выходные данные всех 8 файлов.

Или я хотел бы попробовать параллельные вычисления. Основная цель - обработать данные 8 ГБ в пандах Python. Спасибо.

Мой CSV-файл содержит многочисленные данные с «/» в качестве разделителя запятых,

id    venue           time             code    value ......
AAA   Paris      28/05/2016 09:10      PAR      45   ......
111   Budapest   14/08/2016 19:00      BUD      62   ......
AAA   Tokyo      05/11/2016 23:20      TYO      56   ......
111   LA         12/12/2016 05:55      LAX      05   ......
111   New York   08/01/2016 04:25      NYC      14   ......
AAA   Sydney     04/05/2016 21:40      SYD      2    ......
ABX   HongKong   28/03/2016 17:10      HKG      5    ......
ABX   London     25/07/2016 13:02      LON      22   ......
AAA   Dubai      01/04/2016 18:45      DXB      19   ......
.
.
.
.

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html

Ответы на вопрос(0)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html

Ответы на вопрос(0)

Ваш ответ на вопрос

Популярные вопросы