Spark 2.0: Relativer Pfad in absoluter URI (Spark-Warehouse)
Ich versuche, von Spark 1.6.1 auf Spark 2.0.0 zu migrieren, und es wird ein seltsamer Fehler angezeigt, wenn ich versuche, eine CSV-Datei in SparkSQL einzulesen. Wenn ich zuvor eine Datei von einer lokalen Festplatte in Pyspark gelesen habe, habe ich Folgendes getan:
Spark 1.6
df = sqlContext.read \
.format('com.databricks.spark.csv') \
.option('header', 'true') \
.load('file:///C:/path/to/my/file.csv', schema=mySchema)
In der neuesten Version sollte es meiner Meinung nach so aussehen:
Spark 2.0
spark = SparkSession.builder \
.master('local[*]') \
.appName('My App') \
.getOrCreate()
df = spark.read \
.format('csv') \
.option('header', 'true') \
.load('file:///C:/path/to/my/file.csv', schema=mySchema)
Aber ich erhalte diesen Fehler, egal wie viele verschiedene Arten ich versuche, den Pfad anzupassen:
IllegalArgumentException: 'java.net.URISyntaxException: Relative path in
absolute URI: file:/C:/path//to/my/file/spark-warehouse'
Not sure, wenn dieses gerade ein Problem mit Windows ist oder es etwas gibt, das ich vermisse. Ich war aufgeregt, dass das spark-csv-Paket jetzt ein Teil von Spark ist, aber ich kann es scheinbar nicht mehr dazu bringen, eine meiner lokalen Dateien zu lesen. Irgendwelche Ideen