Scala: Spark SQL to_date (unix_timestamp) возвращает NULL
Spark Version: spark-2.0.1-bin-hadoop2.7 Scala: 2.11.8
Я загружаю сырой CSV в DataFrame. В CSV, хотя столбец поддерживает формат даты, они записываются как 20161025 вместо 2016-10-25. Параметрdate_format
включает в себя строку имен столбцов, которые необходимо преобразовать в формат гггг-мм-дд.
В следующем коде я сначала загрузил столбец csv of Date как StringType черезschema
и затем я проверяю,date_format
не пусто, то есть есть столбцы, которые нужно преобразовать вDate
отString
, затем приведите каждый столбец, используяunix_timestamp
а такжеto_date
, Однако вcsv_df.show()
все возвращенные строкиnull
.
def read_csv(csv_source:String, delimiter:String, is_first_line_header:Boolean,
schema:StructType, date_format:List[String]): DataFrame = {
println("|||| Reading CSV Input ||||")
var csv_df = sqlContext.read
.format("com.databricks.spark.csv")
.schema(schema)
.option("header", is_first_line_header)
.option("delimiter", delimiter)
.load(csv_source)
println("|||| Successfully read CSV. Number of rows -> " + csv_df.count() + " ||||")
if(date_format.length > 0) {
for (i <- 0 until date_format.length) {
csv_df = csv_df.select(to_date(unix_timestamp(
csv_df(date_format(i)), "yyyy-MM-dd").cast("timestamp")))
csv_df.show()
}
}
csv_df
}
Возвращено 20 лучших строк:
+-------------------------------------------------------------------------+
|to_date(CAST(unix_timestamp(prom_price_date, YYYY-MM-DD) AS TIMESTAMP))|
+-------------------------------------------------------------------------+
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
| null|
+-------------------------------------------------------------------------+
Почему я получаю всеnull
?