Файл конфигурации для определения JSON Schema Struture в PySpark

Question

Feb 02, 2017, 03:04 PM

Файл конфигурации для определения JSON Schema Struture в PySpark

я есть файл CSV с 10 столбцами. Половина строки и половина являются целыми числами.

Что такое код Scala для:

Создать (вывести) схемуСохранить эту схему в файл

У меня есть это до сих пор:

import org.apache.spark.sql.SQLContext

val sqlContext = new SQLContext(sc)
val df = sqlContext.read
    .format("com.databricks.spark.csv")
    .option("header", "true") // Use first line of all files as header
    .option("inferSchema", "true") // Automatically infer data types
    .load("cars.csv")

И какой формат файла лучше всего подходит для сохранения этой схемы? Это JSON?

Цель - я хочу создать схему только один раз и в следующий раз загрузить файл, а не заново создавать его на лету.

Благодарю.

Файл конфигурации для определения JSON Schema Struture в PySpark

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Файл конфигурации для определения JSON Schema Struture в PySpark

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы