Resultados de la búsqueda a petición "spark-dataframe"

Tengo dos marcos de datos, df1 tiene 6 millones de filas, df2 tiene mil millones. He probado el estándardf1.join(df2,df1("id")<=>df2("id2")), pero se queda sin memoria. df1 es demasiado grande para colocarlo en una unión de difusión. Incluso ...

pyspark apache-spark-sql apache-spark

3 la respuesta

Pyspark: relleno hacia adelante con la última observación para un DataFrame

Usando Spark 1.5.1, He estado tratando de reenviar el rellenovalores nuloscon la última observación conocida parauna columnade mi DataFrame. Es posible comenzar con un valor nulo y, en este caso, rellenaría este valor nulo con la primera ...

apache-spark apache-spark-sql

1 la respuesta

¿Cómo habilitar la unión cartesiana en Spark 2.0? [duplicar

Esta pregunta ya tiene una respuesta aquí: spark.sql.crossJoin.enabled para Spark 2.x [/questions/38999140/spark-sql-crossjoin-enabled-for-spark-2-x] 3 respuestas Tengo que cruzar el dataframe 2 en Spark 2.0 Me encuentro con el ...

apache-spark apache-spark-sql

2 la respuesta

Cuál es la diferencia entre SparkSession y SparkContext? [duplicar

Esta pregunta ya tiene una respuesta aquí: Diferencia entre SparkContext, JavaSparkContext, SQLContext y SparkSession? [/questions/43802809/difference-between-sparkcontext-javasparkcontext-sqlcontext-and-sparksession] 3 respuestas Solo conozco ...

apache-spark distributed-computing partitioning bigdata

1 la respuesta

Determinar el número óptimo de particiones Spark en función de los trabajadores, los núcleos y el tamaño del Marco de datos

Hay varios conceptos similares pero diferentes en Spark-land que rodean cómo el trabajo se cultiva en diferentes nodos y se ejecuta simultáneamente. Específicamente, hay: El nodo Spark Driver sparkDriverCount) El número de nodos de trabajo ...

scala apache-spark apache-spark-sql

2 la respuesta

Filtro marco de datos por valor NO presente en la columna de otro marco de datos [duplicado]

Esta pregunta ya tiene una respuesta aquí: Filter Spark DataFrame basado en otro DataFrame que especifica los criterios de la lista negra [/questions/39887526/filter-spark-dataframe-based-on-another-dataframe-that-specifies-blacklist-crite] 2 ...

apache-spark java

2 la respuesta

Datasets en Apache Spark

Dataset<Tweet> ds = sc.read().json("path").as(Encoders.bean(Tweet.class)); ds.show(); JavaRDD<Tweet> dstry = ds.toJavaRDD(); System.out.println(dstry.first().getClass()); Caused ...

apache-spark scala

2 la respuesta

¿Cómo reemplazar los valores vacíos en una columna de DataFrame?

¿Cómo puedo reemplazar los valores vacíos en una columnaField1 de DataFramedf? Field1 Field2 AA 12 BB Este comando no proporciona un resultado esperado: df.na.fill("Field1",Seq("Anonymous"))El resultado esperado: Field1 Field2 Anonymous AA 12 BB

Página 12 de 12

8 9 10 1112

Resultados de la búsqueda a petición "spark-dataframe"

Unirse a un marco de datos de chispa grande y descomunal

Pyspark: relleno hacia adelante con la última observación para un DataFrame

¿Cómo habilitar la unión cartesiana en Spark 2.0? [duplicar

Etiquetas Populares

Cuál es la diferencia entre SparkSession y SparkContext? [duplicar

Determinar el número óptimo de particiones Spark en función de los trabajadores, los núcleos y el tamaño del Marco de datos

Filtro marco de datos por valor NO presente en la columna de otro marco de datos [duplicado]

Datasets en Apache Spark

¿Cómo reemplazar los valores vacíos en una columna de DataFrame?

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "spark-dataframe"

Etiquetas Populares