Resultados de la búsqueda a petición "apache-spark-sql"
Spark DataFrame: cálculo de la media en filas (o cualquier operación agregada)
Tengo un Spark DataFrame cargado en la memoria, y quiero tomar la media (o cualquier operación agregada) sobre las columnas. ¿Como podría hacerlo? (Ennumpy, esto se conoce como realizar una operación sobreaxis=1) Si uno calculara la media del ...
Cómo verificar si el marco de datos de chispa está vacío
En este momento, tengo que usardf.count > 0 para verificar si elDataFrame Está vacío o no. Pero es un poco ineficiente. ¿Hay alguna manera mejor de hacer eso? Gracias. PD: Quiero comprobar si está vacío para que solo guarde elDataFrame si no ...
¿Qué está mal con `unionAll` de Spark` DataFrame`?
Usando Spark 1.5.0 y con el siguiente código, espero unionAll to unionDataFrames según su nombre de columna. En el código, estoy usando un poco de FunSuite para pasar SparkContextsc: object Entities { case class A (a: Int, b: Int) case class B ...
Crear Spark DataFrame. No se puede inferir el esquema para el tipo: <type 'float'>
¿Podría alguien ayudarme a resolver este problema que tengo con Spark DataFrame? Cuando lo hagomyFloatRDD.toDF() Me sale un error: TypeError: no se puede inferir el esquema para el tipo: escriba 'float' No entiendo porque ...
¿Cómo convierto un RDD con una columna SparseVector en un DataFrame con una columna como Vector?
Yo tengo unRDDcon una tupla de valores (String, SparseVector) y quiero crear un Marco de datosutilizando laRDD. Para obtener una (etiqueta: cadena, características: vector)Marco de datoscual es el esquema requerido por la mayoría de las ...
¿Cómo agregar una columna constante en un Spark DataFrame?
Quiero agregar una columna en unDataFrame con algún valor arbitrario (que es lo mismo para cada fila). Me sale un error cuando usowithColumn como sigue: dt.withColumn('new_column', ...
El objeto 'PipelinedRDD' no tiene el atributo 'toDF' en PySpark
Estoy tratando de cargar un archivo SVM y convertirlo en unDataFrame entonces puedo usar el módulo ML (Pipeline ML) de Spark. Acabo de instalar un Spark 1.5.0 nuevo en un Ubuntu 14.04 (nospark-env.sh configurado). Mimy_script.py es: from ...
¿Cómo usar las funciones de ventana en PySpark usando DataFrames?
Intentando descubrir cómo usar las funciones de ventana en PySpark. Aquí hay un ejemplo de lo que me gustaría poder hacer, simplemente cuente la cantidad de veces que un usuario tiene un "evento" (en este caso, "dt" es una marca de tiempo ...
Partición Spark: mucho más lenta que sin ella
Probé escribiendo con: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath)Sin embargo, si dejo de lado la partición: df.write .mode(SaveMode.Append) .parquet(filePath)Se ejecuta 100x (!) Más rápido. ¿Es normal que la ...
Aplanar filas en chispa
Estoy haciendo algunas pruebas de chispa usando scala. Por lo general, leemos archivos json que deben manipularse como en el siguiente ejemplo: test.json: {"a":1,"b":[2,3]} val test = sqlContext.read.json("test.json")¿Cómo puedo convertirlo al ...