Como forçar o inferSchema for CSV a considerar números inteiros como datas (com a opção "dateFormat")?
Eu uso o Spark 2.2.0
Estou lendo um arquivo csv da seguinte maneira:
val dataFrame = spark.read.option("inferSchema", "true")
.option("header", true)
.option("dateFormat", "yyyyMMdd")
.csv(pathToCSVFile)
Há uma coluna de data neste arquivo e todos os registros têm um valor igual a20171001
para esta coluna específica.
O problema é que a faísca está inferindo que o tipo dessa coluna éinteger
ao invés dedate
. Quando eu removo o"inferSchema"
opção, o tipo dessa coluna éstring
.
Não hánull
valores, nem qualquer linha formatada incorretamente neste arquivo.
Qual é o motivo / solução para esse problema?