Como forçar o inferSchema for CSV a considerar números inteiros como datas (com a opção "dateFormat")?

Question

Oct 02, 2017, 06:08 PM

dataframe apache-spark-sql spark-csv apache-spark

Como forçar o inferSchema for CSV a considerar números inteiros como datas (com a opção "dateFormat")?

Eu uso o Spark 2.2.0

Estou lendo um arquivo csv da seguinte maneira:

val dataFrame = spark.read.option("inferSchema", "true")
                          .option("header", true)
                          .option("dateFormat", "yyyyMMdd")
                          .csv(pathToCSVFile)

Há uma coluna de data neste arquivo e todos os registros têm um valor igual a20171001 para esta coluna específica.

O problema é que a faísca está inferindo que o tipo dessa coluna éinteger ao invés dedate. Quando eu removo o"inferSchema" opção, o tipo dessa coluna éstring.

Não hánull valores, nem qualquer linha formatada incorretamente neste arquivo.

Qual é o motivo / solução para esse problema?