Spark 2.0: Relativer Pfad in absoluter URI (Spark-Warehouse)

Question

Jul 30, 2016, 02:25 AM

pyspark apache-spark apache-spark-sql windows pyspark-sql

Spark 2.0: Relativer Pfad in absoluter URI (Spark-Warehouse)

Ich versuche, von Spark 1.6.1 auf Spark 2.0.0 zu migrieren, und es wird ein seltsamer Fehler angezeigt, wenn ich versuche, eine CSV-Datei in SparkSQL einzulesen. Wenn ich zuvor eine Datei von einer lokalen Festplatte in Pyspark gelesen habe, habe ich Folgendes getan:

Spark 1.6

df = sqlContext.read \
        .format('com.databricks.spark.csv') \
        .option('header', 'true') \
        .load('file:///C:/path/to/my/file.csv', schema=mySchema)

In der neuesten Version sollte es meiner Meinung nach so aussehen:

Spark 2.0

spark = SparkSession.builder \
           .master('local[*]') \
           .appName('My App') \
           .getOrCreate()

df = spark.read \
        .format('csv') \
        .option('header', 'true') \
        .load('file:///C:/path/to/my/file.csv', schema=mySchema)

Aber ich erhalte diesen Fehler, egal wie viele verschiedene Arten ich versuche, den Pfad anzupassen:

IllegalArgumentException: 'java.net.URISyntaxException: Relative path in 
absolute URI: file:/C:/path//to/my/file/spark-warehouse'

Not sure, wenn dieses gerade ein Problem mit Windows ist oder es etwas gibt, das ich vermisse. Ich war aufgeregt, dass das spark-csv-Paket jetzt ein Teil von Spark ist, aber ich kann es scheinbar nicht mehr dazu bringen, eine meiner lokalen Dateien zu lesen. Irgendwelche Ideen