Spark 2.0: ruta relativa en URI absoluto (almacén de chispas)
Estoy tratando de migrar de Spark 1.6.1 a Spark 2.0.0 y recibo un error extraño al intentar leer un archivo csv en SparkSQL. Anteriormente, cuando leía un archivo del disco local en pyspark, hacía:
Spark 1.6
df = sqlContext.read \
.format('com.databricks.spark.csv') \
.option('header', 'true') \
.load('file:///C:/path/to/my/file.csv', schema=mySchema)
En la última versión, creo que debería verse así:
Spark 2.0
spark = SparkSession.builder \
.master('local[*]') \
.appName('My App') \
.getOrCreate()
df = spark.read \
.format('csv') \
.option('header', 'true') \
.load('file:///C:/path/to/my/file.csv', schema=mySchema)
Pero recibo este error, no importa cuántas formas diferentes trate de ajustar la ruta:
IllegalArgumentException: 'java.net.URISyntaxException: Relative path in
absolute URI: file:/C:/path//to/my/file/spark-warehouse'
No estoy seguro si esto es solo un problema con Windows o si hay algo que me falta. Estaba emocionado de que el paquete spark-csv ahora sea parte de Spark desde el primer momento, pero parece que ya no puedo leer ninguno de mis archivos locales. ¿Algunas ideas?