Resultados de la búsqueda a petición "apache-spark"

4 la respuesta

Apache Spark: obtenga el número de registros por partición

Quiero comprobar cómo podemos obtener información sobre cada partición, como el número total. de registros en cada partición en el lado del controlador cuando el trabajo de Spark se envía con el modo de implementación como un clúster de hilo para ...

1 la respuesta

Sparklyr: ¿cómo explotar una columna de lista en sus propias columnas en la tabla de Spark?

Mi pregunta es similar a la deaquí [https://stackoverflow.com/q/41810015/7913448], pero tengo problemas para implementar la respuesta y no puedo comentar en ese hilo. Entonces, tengo un gran archivo CSV que contiene datos anidados, que contiene ...

4 la respuesta

¿Cómo reemplazar los valores nulos con un valor específico en Dataframe usando spark en Java?

Estoy tratando de mejorar la precisión del algoritmo de regresión logística implementado en Spark usando Java. Para esto, estoy tratando de reemplazar los valores nulos o no válidos presentes en una columna con el valor más frecuente de esa ...

3 la respuesta

Spark Scala: error de tarea no serializable

Estoy usando IntelliJ Community Edition con Scala Plugin y bibliotecas de chispa. Todavía estoy aprendiendo Spark y estoy usando Scala Worksheet. He escrito el siguiente código que elimina los signos de puntuación en una cadena: def ...

1 la respuesta

El almacenamiento en caché ordenado de Spark DataFrame crea trabajo no deseado

Quiero convertir un RDD en un DataFrame y quiero almacenar en caché los resultados del RDD: from pyspark.sql import * from pyspark.sql.types import * import pyspark.sql.functions as fn schema = StructType([StructField('t', ...

1 la respuesta

registerTempTable falla en DataFrame creado a partir de RDD

Esto está en Spark 1.6.x. Estoy buscando una solución alternativa. Tengo una función que crea unDataFrame a partir de unaDataFrameRDD subyacente: def rddAndBack(sc: SparkContext, df: DataFrame) : DataFrame = { val sqlContext = new ...

1 la respuesta

¿Para qué sirve el método addJar () en Spark?

En el trabajo por chispa, no sé cómo importar y usar los frascos compartidos por métodoSparkContext.addJar(). Parece que este método es capaz de mover frascos a algún lugar al que puedan acceder otros nodos del clúster, pero no sé ...

1 la respuesta

Spark Dataframe El UUID aleatorio cambia después de cada transformación / acción

Tengo un marco de datos Spark con una columna que incluye un UUID generado. Sin embargo, cada vez que hago una acción o transformación en el marco de datos, cambia el UUID en cada etapa. ¿Cómo genero el UUID solo una vez y que el UUID permanezca ...

2 la respuesta

¿Cómo clasificamos el marco de datos?

Tengo un marco de datos de muestra como a continuación: i / p accountNumber assetValue A100 1000 A100 500 B100 600 B100 200o / p AccountNumber assetValue Rank A100 1000 1 A100 500 2 B100 600 1 B100 200 2Ahora mi pregunta es cómo agregamos esta ...

1 la respuesta

SparkContext.addJar no funciona en modo local

Cuando se necesita un archivo jar en un trabajo de chispa, debe agregarse al trabajo de chispa de 2 maneras: 1)--jar path opción al mando. 2)SparkContext.addJar("path"). ¿Alguien puede decirme la diferencia entre estas 2 formas? Deesta ...