Provide Schema beim Lesen der CSV-Datei als Datenframe

Question

Oct 08, 2016, 12:02 AM

spark-csv apache-spark-sql scala dataframe apache-spark

Provide Schema beim Lesen der CSV-Datei als Datenframe

Ich versuche, eine CSV-Datei in einen Datenrahmen einzulesen. Ich weiß, wie das Schema meines Datenrahmens aussehen soll, da ich meine CSV-Datei kenne. Außerdem verwende ich das Spark-CSV-Paket, um die Datei zu lesen. Ich versuche, das Schema wie folgt anzugeben.

val pagecount = sqlContext.read.format("csv")
            .option("delimiter"," ").option("quote","")
            .option("schema","project: string ,article: string ,requests: integer ,bytes_served: long")
            .load("dbfs:/databricks-datasets/wikipedia-datasets/data-001/pagecounts/sample/pagecounts-20151124-170000")

Aber wenn ich das Schema des von mir erstellten Datenrahmens überprüfe, scheint es ein eigenes Schema angenommen zu haben. Mache ich etwas falsch? Wie kann ich einen Funken machen, um das Schema, das ich erwähnt habe, aufzunehmen?

> pagecount.printSchema
root
|-- _c0: string (nullable = true)
|-- _c1: string (nullable = true)
|-- _c2: string (nullable = true)
|-- _c3: string (nullable = true)