Create DataFrame von der Liste der Tupel mit pyspark

Question

Jan 25, 2016, 09:00 PM

Create DataFrame von der Liste der Tupel mit pyspark

Ich arbeite mit Daten, die mit dem Simple-Salesforce-Paket aus SFDC extrahiert wurden. Ich verwende Python3 für Skripte und Spark 1.5.2.

Ich habe einen Rdd erstellt, der die folgenden Daten enthält:

[('Id', 'a0w1a0000003xB1A'), ('PackSize', 1.0), ('Name', 'A')]
[('Id', 'a0w1a0000003xAAI'), ('PackSize', 1.0), ('Name', 'B')]
[('Id', 'a0w1a00000xB3AAI'), ('PackSize', 30.0), ('Name', 'C')]
...

Diese Daten befinden sich in RDD mit dem Namen v_rdd

Mein Schema sieht so aus:

StructType(List(StructField(Id,StringType,true),StructField(PackSize,StringType,true),StructField(Name,StringType,true)))

Ich versuche, DataFrame aus dieser RDD zu erstellen:

sqlDataFrame = sqlContext.createDataFrame(v_rdd, schema)

Ich drucke meinen DataFrame:

sqlDataFrame.printSchema()

Und bekomme folgendes:

+--------------------+--------------------+--------------------+
|                  Id|  PackSize|                          Name|
+--------------------+--------------------+--------------------+
|[Ljava.lang.Objec...|[Ljava.lang.Objec...|[Ljava.lang.Objec...|
|[Ljava.lang.Objec...|[Ljava.lang.Objec...|[Ljava.lang.Objec...|
|[Ljava.lang.Objec...|[Ljava.lang.Objec...|[Ljava.lang.Objec...|

Ich erwarte, dass aktuelle Daten wie folgt angezeigt werden:

+------------------+------------------+--------------------+
|                Id|PackSize|                          Name|
+------------------+------------------+--------------------+
|a0w1a0000003xB1A  |               1.0|       A            |
|a0w1a0000003xAAI  |               1.0|       B            |
|a0w1a00000xB3AAI  |              30.0|       C            |

annst du mir bitte helfen, herauszufinden, was ich hier falsch mach

Mein Python-Skript ist lang. Ich bin mir nicht sicher, ob es für die Leute praktisch ist, es zu sichten. Deshalb habe ich nur Teile gepostet, mit denen ich Probleme habe.

Vielen Dank im Voraus!