Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

¿Cómo encontrar la mediana en Apache Spark con Python Dataframe API?

Pyspark API proporciona muchas funciones agregadas, excepto la mediana. Spark 2 viene con aproximadamenteQuantile que proporciona cuantiles aproximados pero la mediana exacta es muy costosa de calcular. ¿Hay alguna forma más de Pyspark ...

1 la respuesta

¿Hay una mejor interfaz para agregar soporte de Highcharts a Zeppelin?

Apache Zeppelin [https://zeppelin.apache.org/]tiene buen apoyo paraAngularJS [https://angularjs.org/]. Si bien hay una brecha entre Scala y Javascript. Estoy tratando de agregarHighcharts [http://www.highcharts.com/]apoyo a Zeppelin para llenar ...

2 la respuesta

Operador de comparación en PySpark (no igual /! =)

Estoy tratando de obtener todas las filas en un marco de datos donde dos banderas están configuradas en '1' y, posteriormente, todas aquellas en las que solo una de las dos está configurada en '1' y la otraNO ES IGUALa 1' Con el siguiente ...

1 la respuesta

Spark: Dataframe.subtract devuelve todo cuando la clave no es la primera en la fila

Estoy tratando de usarSQLContext.subtract () [https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame.subtract] en Spark 1.6.1 para eliminar filas de un marco de datos basado en una columna de otro marco de datos. ...

1 la respuesta

PySpark: StructField (..., ..., False) siempre devuelve `nullable = true` en lugar de` nullable = false`

Soy nuevo en PySpark y enfrento un problema extraño. Estoy tratando de establecer alguna columna en no anulable mientras se carga un conjunto de datos CSV. Puedo reproducir mi caso con un conjunto de datos muy pequeño (test.csv): col1,col2,col3 ...

1 la respuesta

¿Cómo dejar de ejecutar la aplicación Spark Streaming con gracia?

¿Cómo detengo la transmisión por chispa? Mi trabajo de transmisión de chispas se ejecuta continuamente. Quiero parar de una manera elegante. He visto la siguiente opción para cerrar la aplicación de ...

3 la respuesta

Lea desde una tabla de colmena y escríbale usando spark sql

Estoy leyendo una tabla de Hive usando Spark SQL y asignándola a un scala val val x = sqlContext.sql("select * from some_table")Luego estoy procesando un poco con el marco de datos x y finalmente obtengo un marco de datos y, que tiene el esquema ...

2 la respuesta

Leer JSON multilínea en Apache Spark

Estaba tratando de usar un archivo JSON como una pequeña base de datos. Después de crear una tabla de plantilla en DataFrame, la consulté con SQL y obtuve una excepción. Aquí está mi código: val df = sqlCtx.read.json("/path/to/user.json") ...

3 la respuesta

¿Cómo convertir una columna de matrices de cadenas en cadenas?

Tengo una columna, que es de tipoarray < string > en mesas de chispas. Estoy usando SQL para consultar estas tablas de chispa. Quería convertir elarray < string > dentrostring. Cuando se usa la siguiente sintaxis: select cast(rate_plan_code as ...

4 la respuesta

¿Cómo aplanar una estructura en un marco de datos de Spark?

Tengo un marco de datos con la siguiente estructura: |-- data: struct (nullable = true) | |-- id: long (nullable = true) | |-- keyNote: struct (nullable = true) | | |-- key: string (nullable = true) | | |-- note: string (nullable = true) | |-- ...