Resultados de la búsqueda a petición "apache-spark-sql"

Tengo un Spark DataFrame cargado en la memoria, y quiero tomar la media (o cualquier operación agregada) sobre las columnas. ¿Como podría hacerlo? (Ennumpy, esto se conoce como realizar una operación sobreaxis=1) Si uno calculara la media del ...

apache-spark

11 la respuesta

Cómo verificar si el marco de datos de chispa está vacío

En este momento, tengo que usardf.count > 0 para verificar si elDataFrame Está vacío o no. Pero es un poco ineficiente. ¿Hay alguna manera mejor de hacer eso? Gracias. PD: Quiero comprobar si está vacío para que solo guarde elDataFrame si no ...

apache-spark scala dataframe

4 la respuesta

¿Qué está mal con `unionAll` de Spark` DataFrame`?

Usando Spark 1.5.0 y con el siguiente código, espero unionAll to unionDataFrames según su nombre de columna. En el código, estoy usando un poco de FunSuite para pasar SparkContextsc: object Entities { case class A (a: Int, b: Int) case class B ...

Etiquetas Populares

android-ndk-r5 deprecated ef-code-first isolation-level signed awtrobot latex erlang jce vsync currency grails lambda which symbol-server linked-list extjs converter pdfkit uibezierpath

apache-spark python dataframe pyspark

1 la respuesta

Crear Spark DataFrame. No se puede inferir el esquema para el tipo: <type 'float'>

¿Podría alguien ayudarme a resolver este problema que tengo con Spark DataFrame? Cuando lo hagomyFloatRDD.toDF() Me sale un error: TypeError: no se puede inferir el esquema para el tipo: escriba 'float' No entiendo porque ...

apache-spark pyspark apache-spark-mllib apache-spark-ml

3 la respuesta

¿Cómo convierto un RDD con una columna SparseVector en un DataFrame con una columna como Vector?

Yo tengo unRDDcon una tupla de valores (String, SparseVector) y quiero crear un Marco de datosutilizando laRDD. Para obtener una (etiqueta: cadena, características: vector)Marco de datoscual es el esquema requerido por la mayoría de las ...

apache-spark dataframe pyspark python

3 la respuesta

¿Cómo agregar una columna constante en un Spark DataFrame?

Quiero agregar una columna en unDataFrame con algún valor arbitrario (que es lo mismo para cada fila). Me sale un error cuando usowithColumn como sigue: dt.withColumn('new_column', ...

python apache-spark rdd pyspark

1 la respuesta

El objeto 'PipelinedRDD' no tiene el atributo 'toDF' en PySpark

Estoy tratando de cargar un archivo SVM y convertirlo en unDataFrame entonces puedo usar el módulo ML (Pipeline ML) de Spark. Acabo de instalar un Spark 1.5.0 nuevo en un Ubuntu 14.04 (nospark-env.sh configurado). Mimy_script.py es: from ...

python dataframe apache-spark

1 la respuesta

¿Cómo usar las funciones de ventana en PySpark usando DataFrames?

Intentando descubrir cómo usar las funciones de ventana en PySpark. Aquí hay un ejemplo de lo que me gustaría poder hacer, simplemente cuente la cantidad de veces que un usuario tiene un "evento" (en este caso, "dt" es una marca de tiempo ...

apache-spark scala parquet

1 la respuesta

Partición Spark: mucho más lenta que sin ella

Probé escribiendo con: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath)Sin embargo, si dejo de lado la partición: df.write .mode(SaveMode.Append) .parquet(filePath)Se ejecuta 100x (!) Más rápido. ¿Es normal que la ...

scala distributed-computing apache-spark

2 la respuesta

Aplanar filas en chispa

Estoy haciendo algunas pruebas de chispa usando scala. Por lo general, leemos archivos json que deben manipularse como en el siguiente ejemplo: test.json: {"a":1,"b":[2,3]} val test = sqlContext.read.json("test.json")¿Cómo puedo convertirlo al ...

Página 38 de 52

36 373839 40

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark-sql"

Etiquetas Populares