Resultados de la búsqueda a petición "spark-dataframe"

2 la respuesta

Unirse a un marco de datos de chispa grande y descomunal

Tengo dos marcos de datos, df1 tiene 6 millones de filas, df2 tiene mil millones. He probado el estándardf1.join(df2,df1("id")<=>df2("id2")), pero se queda sin memoria. df1 es demasiado grande para colocarlo en una unión de difusión. Incluso ...

3 la respuesta

Pyspark: relleno hacia adelante con la última observación para un DataFrame

Usando Spark 1.5.1, He estado tratando de reenviar el rellenovalores nuloscon la última observación conocida parauna columnade mi DataFrame. Es posible comenzar con un valor nulo y, en este caso, rellenaría este valor nulo con la primera ...

1 la respuesta

¿Cómo habilitar la unión cartesiana en Spark 2.0? [duplicar

Esta pregunta ya tiene una respuesta aquí: spark.sql.crossJoin.enabled para Spark 2.x [/questions/38999140/spark-sql-crossjoin-enabled-for-spark-2-x] 3 respuestas Tengo que cruzar el dataframe 2 en Spark 2.0 Me encuentro con el ...

2 la respuesta

Cuál es la diferencia entre SparkSession y SparkContext? [duplicar

Esta pregunta ya tiene una respuesta aquí: Diferencia entre SparkContext, JavaSparkContext, SQLContext y SparkSession? [/questions/43802809/difference-between-sparkcontext-javasparkcontext-sqlcontext-and-sparksession] 3 respuestas Solo conozco ...

1 la respuesta

Determinar el número óptimo de particiones Spark en función de los trabajadores, los núcleos y el tamaño del Marco de datos

Hay varios conceptos similares pero diferentes en Spark-land que rodean cómo el trabajo se cultiva en diferentes nodos y se ejecuta simultáneamente. Específicamente, hay: El nodo Spark Driver sparkDriverCount) El número de nodos de trabajo ...

2 la respuesta

Filtro marco de datos por valor NO presente en la columna de otro marco de datos [duplicado]

Esta pregunta ya tiene una respuesta aquí: Filter Spark DataFrame basado en otro DataFrame que especifica los criterios de la lista negra [/questions/39887526/filter-spark-dataframe-based-on-another-dataframe-that-specifies-blacklist-crite] 2 ...

2 la respuesta

Datasets en Apache Spark

Dataset<Tweet> ds = sc.read().json("path").as(Encoders.bean(Tweet.class)); ds.show(); JavaRDD<Tweet> dstry = ds.toJavaRDD(); System.out.println(dstry.first().getClass()); Caused ...

2 la respuesta

¿Cómo reemplazar los valores vacíos en una columna de DataFrame?

¿Cómo puedo reemplazar los valores vacíos en una columnaField1 de DataFramedf? Field1 Field2 AA 12 BB Este comando no proporciona un resultado esperado: df.na.fill("Field1",Seq("Anonymous"))El resultado esperado: Field1 Field2 Anonymous AA 12 BB