Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

¿Cómo habilitar la unión cartesiana en Spark 2.0? [duplicar

Esta pregunta ya tiene una respuesta aquí: spark.sql.crossJoin.enabled para Spark 2.x [/questions/38999140/spark-sql-crossjoin-enabled-for-spark-2-x] 3 respuestas Tengo que cruzar el dataframe 2 en Spark 2.0 Me encuentro con el ...

2 la respuesta

Cuál es la diferencia entre SparkSession y SparkContext? [duplicar

Esta pregunta ya tiene una respuesta aquí: Diferencia entre SparkContext, JavaSparkContext, SQLContext y SparkSession? [/questions/43802809/difference-between-sparkcontext-javasparkcontext-sqlcontext-and-sparksession] 3 respuestas Solo conozco ...

4 la respuesta

Utilice el esquema para convertir mensajes AVRO con Spark a DataFrame

¿Hay alguna manera de usar un esquema para convertir avro [/questions/tagged/avro] mensajes de kafka [/questions/tagged/kafka] conchisp [/questions/tagged/spark] amarco de dato [/questions/tagged/dataframe]? El archivo de esquema para registros ...

1 la respuesta

Determinar el número óptimo de particiones Spark en función de los trabajadores, los núcleos y el tamaño del Marco de datos

Hay varios conceptos similares pero diferentes en Spark-land que rodean cómo el trabajo se cultiva en diferentes nodos y se ejecuta simultáneamente. Específicamente, hay: El nodo Spark Driver sparkDriverCount) El número de nodos de trabajo ...

1 la respuesta

¿Cómo puedo aplanar un marco de datos pySpark por una columna de matriz? [duplicar

Esta pregunta ya tiene una respuesta aquí: Dividir filas complejas de trama de datos en filas simples en Pyspark [/questions/36186627/dividing-complex-rows-of-dataframe-to-simple-rows-in-pyspark] 2 respuestas Tengo un marco de datos de chispa ...

3 la respuesta

Explode datos de matriz en filas en chispa [duplicado]

Esta pregunta ya tiene una respuesta aquí: Dividir filas complejas de trama de datos en filas simples en Pyspark [/questions/36186627/dividing-complex-rows-of-dataframe-to-simple-rows-in-pyspark] 2 respuestas Tengo un conjunto de datos de la ...

2 la respuesta

Filtro marco de datos por valor NO presente en la columna de otro marco de datos [duplicado]

Esta pregunta ya tiene una respuesta aquí: Filter Spark DataFrame basado en otro DataFrame que especifica los criterios de la lista negra [/questions/39887526/filter-spark-dataframe-based-on-another-dataframe-that-specifies-blacklist-crite] 2 ...

1 la respuesta

¿Qué sucede si un RDD no cabe en la memoria en Spark? [duplicar

Esta pregunta ya tiene una respuesta aquí: ¿Qué hará chispa si no tengo suficiente memoria? [/questions/20301661/what-will-spark-do-if-i-dont-have-enough-memory] 3 respuestas Hasta donde yo sé, Spark intenta hacer todos los cálculos en ...

2 la respuesta

Sobrescribir solo algunas particiones en un conjunto de datos de chispa particionada

¿Cómo podemos sobrescribir un conjunto de datos particionado, pero solo las particiones que vamos a cambiar? Por ejemplo, volver a calcular el trabajo diario de la semana pasada y solo sobrescribir la semana pasada de datos. l comportamiento ...

1 la respuesta

Combinar múltiples registros en un marco de datos basado en una clave en scala spark

Tengo un marco de datos que contiene registros identificados por una clave. Pero puede haber un caso en el que una clave puede volverse repetitiva. Mi objetivo es fusionar todos los registros basados en esa clave de la siguiente manera ...