Извлечь дату из строкового столбца, содержащего метку времени в Pyspark
У меня есть датафрейм с датой в следующем формате:
+----------------------+
|date |
+----------------------+
|May 6, 2016 5:59:34 AM|
+----------------------+
Я намерен извлечь дату из этого в форматеYYYY-MM-DD
; поэтому результат должен быть на вышеуказанную дату - 2016-05-06.
Но когда я извлекаю, использую следующее:
df.withColumn('part_date', from_unixtime(unix_timestamp(df.date, "MMM dd, YYYY hh:mm:ss aa"), "yyyy-MM-dd"))
Я получаю следующую дату
2015-12-27
Кто-нибудь может посоветовать, пожалуйста, по этому поводу? Я не собираюсь преобразовывать свой df в rdd, чтобы использовать функцию datetime из python, и хочу использовать это в самом фрейме данных.