https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html
я есть CSV-файл 8 ГБ, и я не могу запустить код, так как он показывает ошибку памяти.
file = "./data.csv"
df = pd.read_csv(file, sep="/", header=0, dtype=str)
Я хотел бы разбить файлы на 8 небольших файлов («отсортированы по идентификатору») с помощью Python. И, наконец, иметь цикл, чтобы выходной файл имел выходные данные всех 8 файлов.
Или я хотел бы попробовать параллельные вычисления. Основная цель - обработать данные 8 ГБ в пандах Python. Спасибо.
Мой CSV-файл содержит многочисленные данные с «/» в качестве разделителя запятых,
id venue time code value ......
AAA Paris 28/05/2016 09:10 PAR 45 ......
111 Budapest 14/08/2016 19:00 BUD 62 ......
AAA Tokyo 05/11/2016 23:20 TYO 56 ......
111 LA 12/12/2016 05:55 LAX 05 ......
111 New York 08/01/2016 04:25 NYC 14 ......
AAA Sydney 04/05/2016 21:40 SYD 2 ......
ABX HongKong 28/03/2016 17:10 HKG 5 ......
ABX London 25/07/2016 13:02 LON 22 ......
AAA Dubai 01/04/2016 18:45 DXB 19 ......
.
.
.
.