¿Cómo forzar inferSchema para CSV a considerar enteros como fechas (con la opción "dateFormat")?
Yo uso Spark 2.2.0
Estoy leyendo un archivo csv de la siguiente manera:
val dataFrame = spark.read.option("inferSchema", "true")
.option("header", true)
.option("dateFormat", "yyyyMMdd")
.csv(pathToCSVFile)
Hay una columna de fecha en este archivo, y todos los registros tienen un valor igual a20171001
para esta columna en particular
El problema es que la chispa infiere que el tipo de esta columna esinteger
más bien quedate
. Cuando quito el"inferSchema"
opción, el tipo de esa columna esstring
.
No haynull
valores, ni ninguna línea con formato incorrecto en este archivo.
¿Cuál es la razón / solución para este problema?