Spark 2.0: caminho relativo em URI absoluto (spark-warehouse)

Question

Jul 30, 2016, 02:25 AM

windows apache-spark-sql pyspark apache-spark pyspark-sql

Spark 2.0: caminho relativo em URI absoluto (spark-warehouse)

Estou tentando migrar do Spark 1.6.1 para o Spark 2.0.0 e estou recebendo um erro estranho ao tentar ler um arquivo csv no SparkSQL. Anteriormente, quando eu lia um arquivo do disco local no pyspark, eu fazia:

Spark 1.6

df = sqlContext.read \
        .format('com.databricks.spark.csv') \
        .option('header', 'true') \
        .load('file:///C:/path/to/my/file.csv', schema=mySchema)

Na versão mais recente, acho que deve ficar assim:

Spark 2.0

spark = SparkSession.builder \
           .master('local[*]') \
           .appName('My App') \
           .getOrCreate()

df = spark.read \
        .format('csv') \
        .option('header', 'true') \
        .load('file:///C:/path/to/my/file.csv', schema=mySchema)

Mas estou recebendo esse erro, não importa quantas maneiras diferentes eu tente ajustar o caminho:

IllegalArgumentException: 'java.net.URISyntaxException: Relative path in 
absolute URI: file:/C:/path//to/my/file/spark-warehouse'

Não tenho certeza se esse é apenas um problema do Windows ou se está faltando algo. Fiquei empolgado com o fato de o pacote spark-csv agora fazer parte do Spark imediatamente, mas não consigo mais ler nenhum dos meus arquivos locais. Alguma ideia?