Resultados de la búsqueda a petición "apache-spark"
¿Cómo cortar y sumar elementos de la columna de matriz?
me gustaríasum (o realizar otras funciones agregadas también) en la columna de matriz usando SparkSQL. Tengo una mesa como +-------+-------+---------------------------------+ |dept_id|dept_nm| emp_details| ...
¿Cómo limitar el número de reintentos en la falla del trabajo de Spark?
Estamos ejecutando un trabajo de Spark a través despark-submit, y puedo ver que el trabajo se volverá a enviar en caso de falla. ¿Cómo puedo evitar que tenga el intento n. ° 2 en caso de falla del contenedor de hilo o cualquiera que sea la ...
Problemas al probar el ejemplo en Spark-shell
Quería probar Spark 2.0, pero cuando intenté ejecutar el siguiente código de http://spark.apache.org/docs/latest/sql-programming-guide.html#getting-started [http://spark.apache.org/docs/latest/sql-programming-guide.html#getting-started] import ...
Spark 2.0.0 leyendo datos json con esquema variable
Estoy tratando de procesar un mes de tráfico del sitio web, que se almacena en un depósito S3 como json (un objeto json por línea / hit de tráfico del sitio web). La cantidad de datos es lo suficientemente grande como para no poder pedirle a ...
Hacia la limitación del gran RDD
Estoy leyendo muchas imágenes y me gustaría trabajar en un pequeño subconjunto de ellas para desarrollarlas. Como resultado, estoy tratando de entender cómo Chispa - chispear [/questions/tagged/spark]ypitón [/questions/tagged/python] podría hacer ...
Spark: rendimiento de la consulta PySpark + Cassandra
He configurado Spark 2.0 y Cassandra 3.0 en una máquina local (8 núcleos, 16 gb de ram) para fines de prueba y editadospark-defaults.conf como sigue: spark.python.worker.memory 1g spark.executor.cores 4 spark.executor.instances ...
Spark: Supervisión de una aplicación en modo de clúster
En este momento estoy usando spark-submit para iniciar una aplicación en modo de clúster. La respuesta del servidor maestro proporciona un objeto json con un submitId que utilizo para identificar la aplicación y matarla si es necesario. Sin ...
Spark: ¿SELECCIONAR DÓNDE o filtrar?
¿Cuál es la diferencia entre seleccionar con una cláusula where y filtrar en Spark? ¿Hay algún caso de uso en el que uno sea más apropiado que el otro? Cuando uso DataFrame newdf = df.select(df.col("*")).where(df.col("somecol").leq(10))y cuando ...
Cómo filtrar datos usando funciones de ventana en spark
Tengo los siguientes datos: rowid uid time code 1 1 5 a 2 1 6 b 3 1 7 c 4 2 8 a 5 2 9 c 6 2 9 c 7 2 10 c 8 2 11 a 9 2 12 cAhora quería filtrar los datos de tal manera que pueda eliminar las filas 6 y 7, para un uid en particular, quiero mantener ...
Los marcos de datos de Spark convierten JSON anidado en columnas separadas
Tengo una secuencia de JSON con la siguiente estructura que se convierte en marco de datos { "a": 3936, "b": 123, "c": "34", "attributes": { "d": "146", "e": "12", "f": "23" } }El marco de datos muestra resultados de funciones en la siguiente ...