В качестве альтернативы, как найти количество дней, прошедших между двумя последующими действиями пользователя, с помощью pySpark:
я есть такие данные:
df = sqlContext.createDataFrame([
('1986/10/15', 'z', 'null'),
('1986/10/15', 'z', 'null'),
('1986/10/15', 'c', 'null'),
('1986/10/15', 'null', 'null'),
('1986/10/16', 'null', '4.0')],
('low', 'high', 'normal'))
Я хочу рассчитать разницу между датамиlow
столбец и2017-05-02
и заменитьlow
колонка с разницей. Я пробовал соответствующие решения на stackoverflow, но ни один из них не работает.