Resultados de la búsqueda a petición "apache-spark-sql"

2 la respuesta

Spark DataFrame: cálculo de la media en filas (o cualquier operación agregada)

Tengo un Spark DataFrame cargado en la memoria, y quiero tomar la media (o cualquier operación agregada) sobre las columnas. ¿Como podría hacerlo? (Ennumpy, esto se conoce como realizar una operación sobreaxis=1) Si uno calculara la media del ...

11 la respuesta

Cómo verificar si el marco de datos de chispa está vacío

En este momento, tengo que usardf.count > 0 para verificar si elDataFrame Está vacío o no. Pero es un poco ineficiente. ¿Hay alguna manera mejor de hacer eso? Gracias. PD: Quiero comprobar si está vacío para que solo guarde elDataFrame si no ...

4 la respuesta

¿Qué está mal con `unionAll` de Spark` DataFrame`?

Usando Spark 1.5.0 y con el siguiente código, espero unionAll to unionDataFrames según su nombre de columna. En el código, estoy usando un poco de FunSuite para pasar SparkContextsc: object Entities { case class A (a: Int, b: Int) case class B ...

1 la respuesta

Crear Spark DataFrame. No se puede inferir el esquema para el tipo: <type 'float'>

¿Podría alguien ayudarme a resolver este problema que tengo con Spark DataFrame? Cuando lo hagomyFloatRDD.toDF() Me sale un error: TypeError: no se puede inferir el esquema para el tipo: escriba 'float' No entiendo porque ...

3 la respuesta

¿Cómo convierto un RDD con una columna SparseVector en un DataFrame con una columna como Vector?

Yo tengo unRDDcon una tupla de valores (String, SparseVector) y quiero crear un Marco de datosutilizando laRDD. Para obtener una (etiqueta: cadena, características: vector)Marco de datoscual es el esquema requerido por la mayoría de las ...

3 la respuesta

¿Cómo agregar una columna constante en un Spark DataFrame?

Quiero agregar una columna en unDataFrame con algún valor arbitrario (que es lo mismo para cada fila). Me sale un error cuando usowithColumn como sigue: dt.withColumn('new_column', ...

1 la respuesta

El objeto 'PipelinedRDD' no tiene el atributo 'toDF' en PySpark

Estoy tratando de cargar un archivo SVM y convertirlo en unDataFrame entonces puedo usar el módulo ML (Pipeline ML) de Spark. Acabo de instalar un Spark 1.5.0 nuevo en un Ubuntu 14.04 (nospark-env.sh configurado). Mimy_script.py es: from ...

1 la respuesta

¿Cómo usar las funciones de ventana en PySpark usando DataFrames?

Intentando descubrir cómo usar las funciones de ventana en PySpark. Aquí hay un ejemplo de lo que me gustaría poder hacer, simplemente cuente la cantidad de veces que un usuario tiene un "evento" (en este caso, "dt" es una marca de tiempo ...

1 la respuesta

Partición Spark: mucho más lenta que sin ella

Probé escribiendo con: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath)Sin embargo, si dejo de lado la partición: df.write .mode(SaveMode.Append) .parquet(filePath)Se ejecuta 100x (!) Más rápido. ¿Es normal que la ...

2 la respuesta

Aplanar filas en chispa

Estoy haciendo algunas pruebas de chispa usando scala. Por lo general, leemos archivos json que deben manipularse como en el siguiente ejemplo: test.json: {"a":1,"b":[2,3]} val test = sqlContext.read.json("test.json")¿Cómo puedo convertirlo al ...