Spark 2.0: ruta relativa en URI absoluto (almacén de chispas)

Question

Jul 30, 2016, 02:25 AM

pyspark-sql windows apache-spark-sql apache-spark pyspark

Spark 2.0: ruta relativa en URI absoluto (almacén de chispas)

Estoy tratando de migrar de Spark 1.6.1 a Spark 2.0.0 y recibo un error extraño al intentar leer un archivo csv en SparkSQL. Anteriormente, cuando leía un archivo del disco local en pyspark, hacía:

Spark 1.6

df = sqlContext.read \
        .format('com.databricks.spark.csv') \
        .option('header', 'true') \
        .load('file:///C:/path/to/my/file.csv', schema=mySchema)

En la última versión, creo que debería verse así:

Spark 2.0

spark = SparkSession.builder \
           .master('local[*]') \
           .appName('My App') \
           .getOrCreate()

df = spark.read \
        .format('csv') \
        .option('header', 'true') \
        .load('file:///C:/path/to/my/file.csv', schema=mySchema)

Pero recibo este error, no importa cuántas formas diferentes trate de ajustar la ruta:

IllegalArgumentException: 'java.net.URISyntaxException: Relative path in 
absolute URI: file:/C:/path//to/my/file/spark-warehouse'

No estoy seguro si esto es solo un problema con Windows o si hay algo que me falta. Estaba emocionado de que el paquete spark-csv ahora sea parte de Spark desde el primer momento, pero parece que ya no puedo leer ninguno de mis archivos locales. ¿Algunas ideas?