удалите дубликаты из фрейма данных в pyspark

Я возиться с фреймами данных в pyspark 1.4 локально, и у меня возникают проблемы с работой метода drop duplicates. Продолжает возвращать ошибку «AttributeError: объект списка» не имеет атрибута «dropDuplicates» ». Не совсем уверен, почему, поскольку я, кажется, следую синтаксису впоследняя документация, Похоже, мне не хватает импорта для этой функции или что-то.

#loading the CSV file into an RDD in order to start working with the data
rdd1 = sc.textFile("C:\myfilename.csv").map(lambda line: (line.split(",")[0], line.split(",")[1], line.split(",")[2], line.split(",")[3])).collect()

#loading the RDD object into a dataframe and assigning column names
df1 = sqlContext.createDataFrame(rdd1, ['column1', 'column2', 'column3', 'column4']).collect()

#dropping duplicates from the dataframe
df1.dropDuplicates().show()

Ответы на вопрос(2)

Ваш ответ на вопрос