Extrair data de uma coluna de sequência contendo carimbo de data e hora no Pyspark
Eu tenho um dataframe que possui uma data no seguinte formato:
+----------------------+
|date |
+----------------------+
|May 6, 2016 5:59:34 AM|
+----------------------+
Pretendo extrair a data disso no formatoYYYY-MM-DD
; portanto, o resultado deve ser para a data acima - 06/05/2016.
Mas quando eu extraio está usando o seguinte:
df.withColumn('part_date', from_unixtime(unix_timestamp(df.date, "MMM dd, YYYY hh:mm:ss aa"), "yyyy-MM-dd"))
Eu recebo a seguinte data
2015-12-27
Alguém pode aconselhar sobre isso? Não pretendo converter meu df em rdd para usar a função datetime do python e quero usá-lo no próprio dataframe.