Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

¿Spark eliminaría el RDD si se da cuenta de que ya no se usará?

Podemos conservar un RDD en la memoria y / o el disco cuando queremos usarlo más de una vez. Sin embargo, ¿tenemos que eliminarlo nosotros mismos más adelante, o Spark hace algún tipo de recolección de basura y eliminar el RDD cuando ya no ...

1 la respuesta

Guardar / exportar DataFrame transformado de nuevo a JDBC / MySQL

Estoy tratando de descubrir cómo usar el nuevoDataFrameWriter para volver a escribir datos en una base de datos JDBC. Parece que no puedo encontrar ninguna documentación para esto, aunque mirando el código fuente parece que debería ...

1 la respuesta

Cómo filtrar un marco de datos de chispa contra otro marco de datos

Estoy tratando de filtrar un marco de datos contra otro: scala> val df1 = sc.parallelize((1 to 100).map(a=>(s"user $a", a*0.123, a))).toDF("name", "score", "user_id") scala> val df2 = sc.parallelize(List(2,3,4,5,6)).toDF("valid_id")Ahora quiero ...

2 la respuesta

Spark DataFrame: cálculo de la media en filas (o cualquier operación agregada)

Tengo un Spark DataFrame cargado en la memoria, y quiero tomar la media (o cualquier operación agregada) sobre las columnas. ¿Como podría hacerlo? (Ennumpy, esto se conoce como realizar una operación sobreaxis=1) Si uno calculara la media del ...

3 la respuesta

Acceso a Spark desde la aplicación Flask

Escribí una aplicación Flask simple para pasar algunos datos a Spark. El script funciona en IPython Notebook, pero no cuando intento ejecutarlo en su propio servidor. No creo que el contexto de Spark se esté ejecutando dentro del script. ¿Cómo ...

3 la respuesta

¿Cómo convierto un RDD con una columna SparseVector en un DataFrame con una columna como Vector?

Yo tengo unRDDcon una tupla de valores (String, SparseVector) y quiero crear un Marco de datosutilizando laRDD. Para obtener una (etiqueta: cadena, características: vector)Marco de datoscual es el esquema requerido por la mayoría de las ...

4 la respuesta

¿Qué está mal con `unionAll` de Spark` DataFrame`?

Usando Spark 1.5.0 y con el siguiente código, espero unionAll to unionDataFrames según su nombre de columna. En el código, estoy usando un poco de FunSuite para pasar SparkContextsc: object Entities { case class A (a: Int, b: Int) case class B ...

11 la respuesta

Cómo verificar si el marco de datos de chispa está vacío

En este momento, tengo que usardf.count > 0 para verificar si elDataFrame Está vacío o no. Pero es un poco ineficiente. ¿Hay alguna manera mejor de hacer eso? Gracias. PD: Quiero comprobar si está vacío para que solo guarde elDataFrame si no ...

1 la respuesta

Crear Spark DataFrame. No se puede inferir el esquema para el tipo: <type 'float'>

¿Podría alguien ayudarme a resolver este problema que tengo con Spark DataFrame? Cuando lo hagomyFloatRDD.toDF() Me sale un error: TypeError: no se puede inferir el esquema para el tipo: escriba 'float' No entiendo porque ...

10 la respuesta

¿Por qué spark-shell falla con NullPointerException?

Trato de ejecutarspark-shell en Windows 10, pero sigo recibiendo este error cada vez que lo ejecuto. Usé las dos últimas versiones y spark-1.5.0-bin-hadoop2.4. 15/09/22 18:46:24 WARN Connection: BoneCP specified but not present in CLASSPATH (or ...