@EngrStudent Да: было бы замечательно, если бы в H2O была встроенная поддержка для выполнения лагов!

ой вопрос не так:

Эффективный способ сохранить кадр данных H2OH2O работает медленнее, чем data.table RЗагрузка данных больше, чем объем памяти в H2O

Оборудование / Space:

32 потока Xeon с ~ 256 ГБ оперативной памяти~ 65 ГБ данных для загрузки. (около 5,6 миллиардов клеток)

Проблема:
Загрузка моих данных в h2o занимает несколько часов. Это не какая-то специальная обработка, только "as.h2o (...)".

Использование «fread» занимает меньше минуты, чтобы поместить текст в пространство, а затем я делаю несколько преобразований строки / столбца (diff, lags) и пытаюсь импортировать.

Общий объем памяти R составляет ~ 56 ГБ, прежде чем пытаться использовать что-либо вроде «as.h2o», поэтому выделенные 128 не должны быть слишком сумасшедшими, не так ли?

Вопрос:
Что я могу сделать, чтобы загрузить в H2O меньше часа? Это должно занять от минуты до нескольких минут, не больше.

Что я пробовал:

увеличение объема памяти до 128 ГБ в h2o.initиспользуя slam, data.table и options (...преобразовать в "as.data.frame" перед "as.h2o"Записать в CSV-файл (r write.csv захлебывается и занимает вечность. Хотя пишет много ГБ, так что я понимаю).написать в sqlite3, слишком много столбцов для таблицы, что странно.Проверил кэш / подкачку диска, чтобы убедиться, что там достаточно ГБ. Возможно, Java использует кеш. (еще работает)

Обновить:
Так что, похоже, мой единственный вариант - создать гигантский текстовый файл, а затем использовать для него «h2o.importFile (...)». У меня до 15гб написано.

Update2:
Это отвратительный CSV-файл, размером ~ 22 ГБ (~ 2,4 млн., ~ 2300 столбцов). Для чего это стоило, это заняло с 12:53 вечера до 14:44 вечера, чтобы написать файл CSV. Импорт был значительно быстрее, после того как он был написан.

Ответы на вопрос(1)

Ваш ответ на вопрос