Файл конфигурации для определения JSON Schema Struture в PySpark
я есть файл CSV с 10 столбцами. Половина строки и половина являются целыми числами.
Что такое код Scala для:
Создать (вывести) схемуСохранить эту схему в файлУ меня есть это до сих пор:
import org.apache.spark.sql.SQLContext
val sqlContext = new SQLContext(sc)
val df = sqlContext.read
.format("com.databricks.spark.csv")
.option("header", "true") // Use first line of all files as header
.option("inferSchema", "true") // Automatically infer data types
.load("cars.csv")
И какой формат файла лучше всего подходит для сохранения этой схемы? Это JSON?
Цель - я хочу создать схему только один раз и в следующий раз загрузить файл, а не заново создавать его на лету.
Благодарю.