Como carregar CSVs com registros de data e hora em formato personalizado?

Question

Apr 06, 2017, 05:28 PM

apache-spark hortonworks-data-platform apache-spark-sql hdinsight

Como carregar CSVs com registros de data e hora em formato personalizado?

Eu tenho um campo de carimbo de data / hora em um arquivo CSV que eu carrego em um dataframe usando a biblioteca spark CSV. O mesmo trecho de código funciona na minha máquina local com a versão Spark 2.0, mas gera um erro no Azure Hortonworks HDP 3.5 e 3.6.

Eu verifiquei e o Azure HDInsight 3.5 também está usando a mesma versão do Spark, então não acho que seja um problema com a versão do Spark.

import org.apache.spark.sql.types._
val sourceFile = "C:\\2017\\datetest"
val sourceSchemaStruct = new StructType()
  .add("EventDate",DataTypes.TimestampType)
  .add("Name",DataTypes.StringType)
val df = spark.read
  .format("com.databricks.spark.csv")
  .option("header","true")
  .option("delimiter","|")
  .option("mode","FAILFAST")
  .option("inferSchema","false")
  .option("dateFormat","yyyy/MM/dd HH:mm:ss.SSS")
  .schema(sourceSchemaStruct)
  .load(sourceFile)

A exceção toda é a seguinte:

Caused by: java.lang.IllegalArgumentException: Timestamp format must be yyyy-mm-dd hh:mm:ss[.fffffffff]
  at java.sql.Timestamp.valueOf(Timestamp.java:237)
  at org.apache.spark.sql.catalyst.util.DateTimeUtils$.stringToTime(DateTimeUtils.scala:179)
  at org.apache.spark.sql.execution.datasources.csv.UnivocityParser$anonfun$makeConverter2.3.0-INSTANTÂNEO$anonfun$apply é a "causa raiz" do problema:$anonfun$apply$2.apply$mcJ$sp(UnivocityParser.scala:142)
  at org.apache.spark.sql.execution.datasources.csv.UnivocityParser$anonfun$makeConverter2.3.0-INSTANTÂNEO$anonfun$apply é a "causa raiz" do problema:$anonfun$apply$2.apply(UnivocityParser.scala:142)
  at org.apache.spark.sql.execution.datasources.csv.UnivocityParser$anonfun$makeConverter2.3.0-INSTANTÂNEO$anonfun$apply é a "causa raiz" do problema:$anonfun$apply$2.apply(UnivocityParser.scala:142)
  at scala.util.Try.getOrElse(Try.scala:79)
  at org.apache.spark.sql.execution.datasources.csv.UnivocityParser$anonfun$makeConverter2.3.0-INSTANTÂNEO$anonfun$apply$13.apply(UnivocityParser.scala:139)
  at org.apache.spark.sql.execution.datasources.csv.UnivocityParser$anonfun$makeConverter2.3.0-INSTANTÂNEO$anonfun$apply$13.apply(UnivocityParser.scala:135)
  at org.apache.spark.sql.execution.datasources.csv.UnivocityParser.org$apache$spark$sql$execution$datasources$csv$UnivocityParser$nullSafeDatum(UnivocityParser.scala:179)
  at org.apache.spark.sql.execution.datasources.csv.UnivocityParser$anonfun$makeConverter$9.apply(UnivocityParser.scala:135)
  at org.apache.spark.sql.execution.datasources.csv.UnivocityParser$anonfun$makeConverter$9.apply(UnivocityParser.scala:134)
  at org.apache.spark.sql.execution.datasources.csv.UnivocityParser.org$apache$spark$sql$execution$datasources$csv$UnivocityParser$convert(UnivocityParser.scala:215)
  at org.apache.spark.sql.execution.datasources.csv.UnivocityParser.parse(UnivocityParser.scala:187)
  at org.apache.spark.sql.execution.datasources.csv.UnivocityParser$anonfun$5.apply(UnivocityParser.scala:304)
  at org.apache.spark.sql.execution.datasources.csv.UnivocityParser$anonfun$5.apply(UnivocityParser.scala:304)
  at org.apache.spark.sql.execution.datasources.FailureSafeParser.parse(FailureSafeParser.scala:61)
  ... 27 more

O arquivo csv possui apenas uma linha da seguinte maneira:

"EventDate"|"Name"
"2016/12/19 00:43:27.583"|"adam"

questionAnswers(2)

Perguntas populares

0 a resposta

use ctypes python para interagir com o nvapi (siga o código de demonstração)

0 a resposta

Como obter os números após o ponto decimal? (java) [duplicado]

0 a resposta

Barra de rolagem CSS personalizada para Firefox

0 a resposta

Trocar linhas e colunas da matriz 2D

0 a resposta

Obter partes de um NSURL no objetivo-c

Você é muito ativo! É ótimo!

Como carregar CSVs com registros de data e hora em formato personalizado?

questionAnswers(2)

yourAnswerToTheQuestion

Perguntas populares