Resultados de la búsqueda a petición "apache-spark"
¿Spark eliminaría el RDD si se da cuenta de que ya no se usará?
Podemos conservar un RDD en la memoria y / o el disco cuando queremos usarlo más de una vez. Sin embargo, ¿tenemos que eliminarlo nosotros mismos más adelante, o Spark hace algún tipo de recolección de basura y eliminar el RDD cuando ya no ...
Guardar / exportar DataFrame transformado de nuevo a JDBC / MySQL
Estoy tratando de descubrir cómo usar el nuevoDataFrameWriter para volver a escribir datos en una base de datos JDBC. Parece que no puedo encontrar ninguna documentación para esto, aunque mirando el código fuente parece que debería ...
Cómo filtrar un marco de datos de chispa contra otro marco de datos
Estoy tratando de filtrar un marco de datos contra otro: scala> val df1 = sc.parallelize((1 to 100).map(a=>(s"user $a", a*0.123, a))).toDF("name", "score", "user_id") scala> val df2 = sc.parallelize(List(2,3,4,5,6)).toDF("valid_id")Ahora quiero ...
Spark DataFrame: cálculo de la media en filas (o cualquier operación agregada)
Tengo un Spark DataFrame cargado en la memoria, y quiero tomar la media (o cualquier operación agregada) sobre las columnas. ¿Como podría hacerlo? (Ennumpy, esto se conoce como realizar una operación sobreaxis=1) Si uno calculara la media del ...
Acceso a Spark desde la aplicación Flask
Escribí una aplicación Flask simple para pasar algunos datos a Spark. El script funciona en IPython Notebook, pero no cuando intento ejecutarlo en su propio servidor. No creo que el contexto de Spark se esté ejecutando dentro del script. ¿Cómo ...
¿Cómo convierto un RDD con una columna SparseVector en un DataFrame con una columna como Vector?
Yo tengo unRDDcon una tupla de valores (String, SparseVector) y quiero crear un Marco de datosutilizando laRDD. Para obtener una (etiqueta: cadena, características: vector)Marco de datoscual es el esquema requerido por la mayoría de las ...
¿Qué está mal con `unionAll` de Spark` DataFrame`?
Usando Spark 1.5.0 y con el siguiente código, espero unionAll to unionDataFrames según su nombre de columna. En el código, estoy usando un poco de FunSuite para pasar SparkContextsc: object Entities { case class A (a: Int, b: Int) case class B ...
Cómo verificar si el marco de datos de chispa está vacío
En este momento, tengo que usardf.count > 0 para verificar si elDataFrame Está vacío o no. Pero es un poco ineficiente. ¿Hay alguna manera mejor de hacer eso? Gracias. PD: Quiero comprobar si está vacío para que solo guarde elDataFrame si no ...
Crear Spark DataFrame. No se puede inferir el esquema para el tipo: <type 'float'>
¿Podría alguien ayudarme a resolver este problema que tengo con Spark DataFrame? Cuando lo hagomyFloatRDD.toDF() Me sale un error: TypeError: no se puede inferir el esquema para el tipo: escriba 'float' No entiendo porque ...
¿Por qué spark-shell falla con NullPointerException?
Trato de ejecutarspark-shell en Windows 10, pero sigo recibiendo este error cada vez que lo ejecuto. Usé las dos últimas versiones y spark-1.5.0-bin-hadoop2.4. 15/09/22 18:46:24 WARN Connection: BoneCP specified but not present in CLASSPATH (or ...