Resultados de la búsqueda a petición "rdd"

3 la respuesta

¿Cómo calcular el mejor número de Particiones para la fusión?

Entonces, entiendo que en general uno debería usarcoalesce() cuando: el número de particiones disminuye debido a unfilter o alguna otra operación que pueda resultar en la reducción del conjunto de datos original (RDD, DF).coalesce() es útil para ...

1 la respuesta

Reutilice un Spark RDD en caché

¿Existe la posibilidad en Spark de reutilizar un RDD en caché en otra aplicación (o en otra ejecución de la misma aplicación)? JavaRDD<ExampleClass> toCache = ... // transformations on the RDD toCache.cache(); // can this be reused somehow in ...

3 la respuesta

¿Diferencia entre SparkContext, JavaSparkContext, SQLContext y SparkSession?

Cuál es la diferencia entreSparkContext, JavaSparkContext, SQLContext ySparkSession?¿Hay algún método para convertir o crear un contexto usando unSparkSession?¿Puedo reemplazar completamente todos los contextos usando una sola ...

1 la respuesta

Filtrado de chispas con expresiones regulares

Estoy tratando de filtrar los datos del archivo en datos buenos y malos por fecha, por lo tanto, obtendré 2 archivos de resultados. Desde el archivo de prueba, las primeras 4 líneas deben ir en datos buenos y las últimas 2 líneas en datos ...

1 la respuesta

¿Por qué falla RDD.foreach con "SparkException: este RDD carece de SparkContext"?

Tengo un conjunto de datos (como unRDD) que divido en 4 RDD usando diferentesfilter operadores val RSet = datasetRdd. flatMap(x => RSetForAttr(x, alLevel, hieDict)). map(x => (x, 1)). reduceByKey((x, y) => x + y) val Rp:RDD[(String, Int)] = ...

1 la respuesta

Cómo chispa lee un archivo grande (petabyte) cuando el archivo no puede caber en la memoria principal de chispa

¿Qué pasará con los archivos grandes en estos casos? 1) Spark obtiene una ubicación de NameNode para datos. ¿Spark se detendrá en este mismo tiempo porque el tamaño de los datos es demasiado largo según la información de NameNode? 2) Spark hace ...

3 la respuesta

Acoplar JSON en estructura tabular utilizando solo la función Spark-Scala RDD

He anidado JSON y me gusta tener salida en estructura tabular. Puedo analizar los valores JSON individualmente, pero tengo algunos problemas para tabularlo. Puedo hacerlo fácilmente a través del marco de datos. Pero quiero hacerlo usando las ...

1 la respuesta

Número máximo de columnas que podemos tener en el marco de datos Spark Scala

Me gusta saber el número máximo de columnas que puedo tener en el marco de datos. ¿Hay alguna limitación para mantener el número de columnas en los marcos de datos? Gracias.

2 la respuesta

Partición de parquet Spark: gran cantidad de archivos

Estoy tratando de aprovechar la partición de chispas. Estaba tratando de hacer algo como data.write.partitionBy("key").parquet("/location")El problema aquí es que cada partición crea una gran cantidad de archivos de parquet que resultan en ...

3 la respuesta

¿Cómo puedo contar el promedio de Spark RDD?

Tengo un problema con Spark Scala que quiero contar el promedio de los datos de Rdd, creo un nuevo RDD como este, [(2,110),(2,130),(2,120),(3,200),(3,206),(3,206),(4,150),(4,160),(4,170)]Quiero contarlos ...