El objeto 'PipelinedRDD' no tiene el atributo 'toDF' en PySpark

Question

Sep 25, 2015, 08:21 PM

python apache-spark rdd pyspark apache-spark-sql

El objeto 'PipelinedRDD' no tiene el atributo 'toDF' en PySpark

Estoy tratando de cargar un archivo SVM y convertirlo en unDataFrame entonces puedo usar el módulo ML (Pipeline ML) de Spark. Acabo de instalar un Spark 1.5.0 nuevo en un Ubuntu 14.04 (nospark-env.sh configurado).

Mimy_script.py es:

from pyspark.mllib.util import MLUtils
from pyspark import SparkContext

sc = SparkContext("local", "Teste Original")
data = MLUtils.loadLibSVMFile(sc, "/home/svm_capture").toDF()

y estoy corriendo usando:./spark-submit my_script.py

Y me sale el error:

Traceback (most recent call last):
File "/home/fred-spark/spark-1.5.0-bin-hadoop2.6/pipeline_teste_original.py", line 34, in <module>
data = MLUtils.loadLibSVMFile(sc, "/home/fred-spark/svm_capture").toDF()
AttributeError: 'PipelinedRDD' object has no attribute 'toDF'

Lo que no puedo entender es que si corro:

data = MLUtils.loadLibSVMFile(sc, "/home/svm_capture").toDF()

directamente dentro del shell PySpark, funciona.

Respuestas a la pregunta(1)

Preguntas populares

0 la respuesta

Por qué implementa el método abstracto usando val y call desde la superclase en la expresión val return NullPointerException

0 la respuesta

Evite la anidación de subsecciones en Python Sphinx cuando se usa toctree

0 la respuesta

Migración de datos de Microsoft SQL Server a Oracle (conversión) (otros RDBMS también están bien)

0 la respuesta

¿Cómo eliminar correctamente de la vista previa?

0 la respuesta

CSV: los campos sin comillas no permiten \ r o \ n (línea 2)

¡Eres muy activo! ¡Es genial!

El objeto &#39;PipelinedRDD&#39; no tiene el atributo &#39;toDF&#39; en PySpark

Respuestas a la pregunta(1)

Su respuesta a la pregunta

Preguntas populares

El objeto 'PipelinedRDD' no tiene el atributo 'toDF' en PySpark