Resultados de la búsqueda a petición "apache-spark"

5 la respuesta

¿Cómo cortar y sumar elementos de la columna de matriz?

me gustaríasum (o realizar otras funciones agregadas también) en la columna de matriz usando SparkSQL. Tengo una mesa como +-------+-------+---------------------------------+ |dept_id|dept_nm| emp_details| ...

3 la respuesta

¿Cómo limitar el número de reintentos en la falla del trabajo de Spark?

Estamos ejecutando un trabajo de Spark a través despark-submit, y puedo ver que el trabajo se volverá a enviar en caso de falla. ¿Cómo puedo evitar que tenga el intento n. ° 2 en caso de falla del contenedor de hilo o cualquiera que sea la ...

1 la respuesta

Problemas al probar el ejemplo en Spark-shell

Quería probar Spark 2.0, pero cuando intenté ejecutar el siguiente código de http://spark.apache.org/docs/latest/sql-programming-guide.html#getting-started [http://spark.apache.org/docs/latest/sql-programming-guide.html#getting-started] import ...

1 la respuesta

Spark 2.0.0 leyendo datos json con esquema variable

Estoy tratando de procesar un mes de tráfico del sitio web, que se almacena en un depósito S3 como json (un objeto json por línea / hit de tráfico del sitio web). La cantidad de datos es lo suficientemente grande como para no poder pedirle a ...

1 la respuesta

Hacia la limitación del gran RDD

Estoy leyendo muchas imágenes y me gustaría trabajar en un pequeño subconjunto de ellas para desarrollarlas. Como resultado, estoy tratando de entender cómo Chispa - chispear [/questions/tagged/spark]ypitón [/questions/tagged/python] podría hacer ...

1 la respuesta

Spark: rendimiento de la consulta PySpark + Cassandra

He configurado Spark 2.0 y Cassandra 3.0 en una máquina local (8 núcleos, 16 gb de ram) para fines de prueba y editadospark-defaults.conf como sigue: spark.python.worker.memory 1g spark.executor.cores 4 spark.executor.instances ...

2 la respuesta

Spark: Supervisión de una aplicación en modo de clúster

En este momento estoy usando spark-submit para iniciar una aplicación en modo de clúster. La respuesta del servidor maestro proporciona un objeto json con un submitId que utilizo para identificar la aplicación y matarla si es necesario. Sin ...

1 la respuesta

Spark: ¿SELECCIONAR DÓNDE o filtrar?

¿Cuál es la diferencia entre seleccionar con una cláusula where y filtrar en Spark? ¿Hay algún caso de uso en el que uno sea más apropiado que el otro? Cuando uso DataFrame newdf = df.select(df.col("*")).where(df.col("somecol").leq(10))y cuando ...

1 la respuesta

Cómo filtrar datos usando funciones de ventana en spark

Tengo los siguientes datos: rowid uid time code 1 1 5 a 2 1 6 b 3 1 7 c 4 2 8 a 5 2 9 c 6 2 9 c 7 2 10 c 8 2 11 a 9 2 12 cAhora quería filtrar los datos de tal manera que pueda eliminar las filas 6 y 7, para un uid en particular, quiero mantener ...

3 la respuesta

Los marcos de datos de Spark convierten JSON anidado en columnas separadas

Tengo una secuencia de JSON con la siguiente estructura que se convierte en marco de datos { "a": 3936, "b": 123, "c": "34", "attributes": { "d": "146", "e": "12", "f": "23" } }El marco de datos muestra resultados de funciones en la siguiente ...