Spark 2.0: относительный путь в абсолютном URI (спарк-склад)
Я пытаюсь перейти с Spark 1.6.1 на Spark 2.0.0 и получаю странную ошибку при попытке прочитать CSV-файл в SparkSQL. Ранее, когда я читал файл с локального диска в pyspark, я делал:
Spark 1.6
df = sqlContext.read \
.format('com.databricks.spark.csv') \
.option('header', 'true') \
.load('file:///C:/path/to/my/file.csv', schema=mySchema)
В последней версии я думаю, что это должно выглядеть так:
Spark 2.0
spark = SparkSession.builder \
.master('local[*]') \
.appName('My App') \
.getOrCreate()
df = spark.read \
.format('csv') \
.option('header', 'true') \
.load('file:///C:/path/to/my/file.csv', schema=mySchema)
Но я получаю эту ошибку независимо от того, сколько разных способов я пытаюсь скорректировать путь:
IllegalArgumentException: 'java.net.URISyntaxException: Relative path in
absolute URI: file:/C:/path//to/my/file/spark-warehouse'
Не уверен, что это просто проблема с Windows или что-то мне не хватает. Я был взволнован тем, что пакет spark-csv теперь является частью Spark прямо из коробки, но я не могу заставить его читать какие-либо из моих локальных файлов. Есть идеи?