Duplikate aus einem Datenframe in pyspark entfernen

Ich spiele lokal mit Datenrahmen in Pyspark 1.4 herum und habe Probleme, die Drop-Duplikate-Methode zum Laufen zu bringen. Gibt weiterhin den Fehler "AttributeError: 'list' Objekt hat kein Attribut 'dropDuplicates'" zurück. Ich bin mir nicht ganz sicher, warum ich der Syntax im @ folg neueste Dokumentation. Scheint, als würde mir ein Import für diese Funktionalität fehlen oder so.

#loading the CSV file into an RDD in order to start working with the data
rdd1 = sc.textFile("C:\myfilename.csv").map(lambda line: (line.split(",")[0], line.split(",")[1], line.split(",")[2], line.split(",")[3])).collect()

#loading the RDD object into a dataframe and assigning column names
df1 = sqlContext.createDataFrame(rdd1, ['column1', 'column2', 'column3', 'column4']).collect()

#dropping duplicates from the dataframe
df1.dropDuplicates().show()

Antworten auf die Frage(4)

Ihre Antwort auf die Frage