Spark 2.0: caminho relativo em URI absoluto (spark-warehouse)
Estou tentando migrar do Spark 1.6.1 para o Spark 2.0.0 e estou recebendo um erro estranho ao tentar ler um arquivo csv no SparkSQL. Anteriormente, quando eu lia um arquivo do disco local no pyspark, eu fazia:
Spark 1.6
df = sqlContext.read \
.format('com.databricks.spark.csv') \
.option('header', 'true') \
.load('file:///C:/path/to/my/file.csv', schema=mySchema)
Na versão mais recente, acho que deve ficar assim:
Spark 2.0
spark = SparkSession.builder \
.master('local[*]') \
.appName('My App') \
.getOrCreate()
df = spark.read \
.format('csv') \
.option('header', 'true') \
.load('file:///C:/path/to/my/file.csv', schema=mySchema)
Mas estou recebendo esse erro, não importa quantas maneiras diferentes eu tente ajustar o caminho:
IllegalArgumentException: 'java.net.URISyntaxException: Relative path in
absolute URI: file:/C:/path//to/my/file/spark-warehouse'
Não tenho certeza se esse é apenas um problema do Windows ou se está faltando algo. Fiquei empolgado com o fato de o pacote spark-csv agora fazer parte do Spark imediatamente, mas não consigo mais ler nenhum dos meus arquivos locais. Alguma ideia?