Resultados de la búsqueda a petición "apache-spark"

3 la respuesta

La interfaz de usuario de Spark muestra 0 núcleos incluso cuando se configuran núcleos en la aplicación

Tengo un problema extraño al ejecutar una aplicación fuera de la url maestra de chispas donde la interfaz de usuario informa un "ESTADO" de "ESPERA" indefinidamente ya que se muestran 0 núcleos en la tabla APLICACIONES EN EJECUCIÓN sin importar ...

5 la respuesta

Cómo calcular la suma acumulativa usando Spark

Tengo un rdd de (String, Int) que está ordenado por clave val data = Array(("c1",6), ("c2",3),("c3",4)) val rdd = sc.parallelize(data).sortByKeyAhora quiero comenzar el valor de la primera clave con cero y las claves posteriores como la suma de ...

2 la respuesta

Spark + Scala transformaciones, inmutabilidad y gastos generales de consumo de memoria

He revisado algunos videos en Youtube sobreChispa - chispear [https://www.youtube.com/watch?v=65aV15uDKgA]arquitectura. Aunque la evaluación diferida, la capacidad de recuperación de la creación de datos en caso de fallas, los buenos conceptos ...

1 la respuesta

Resultados inesperados en Spark MapReduce

Soy nuevo en Spark y quiero entender cómo se hace MapReduce debajo del capó para asegurarme de que lo uso correctamente.Esta publicación [https://stackoverflow.com/a/32520848/5880417]proporcionó una gran respuesta, pero mis resultados no parecen ...

3 la respuesta

¿Cómo crear un transformador personalizado desde un UDF?

Estaba tratando de crear y guardar unTubería [https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.ml.Pipeline] Con escenarios personalizados. Necesito agregar uncolumn para miDataFrame mediante el uso de unUDF. Por lo ...

2 la respuesta

Spark: diferencia de semántica entre reduce y reduceByKey

En la documentación de Spark, dice que el método RDDreduce [http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.RDD] requiere una función binaria asociativa Y conmutativa. Sin embargo, el ...

2 la respuesta

spark.ml StringIndexer arroja 'Etiqueta invisible' en fit ()

Estoy preparando un juguetespark.ml ejemplo.Spark version 1.6.0, corriendo encima deOracle JDK version 1.8.0_65, pyspark, cuaderno de ipython. Primero, casi no tiene nada que ver conSpark, ML, StringIndexer: manejo de etiquetas ...

5 la respuesta

¿Cómo evitar columnas duplicadas después de unir?

Tengo dos marcos de datos con las siguientes columnas: df1.columns // Array(ts, id, X1, X2)y df2.columns // Array(ts, id, Y1, Y2)Despues de hacer val df_combined = df1.join(df2, Seq(ts,id))Termino con las siguientes columnas:Array(ts, id, X1, ...

2 la respuesta

Encuentre la fila máxima por grupo en Spark DataFrame

Estoy tratando de usar marcos de datos Spark en lugar de RDD, ya que parecen ser de más alto nivel que los RDD y tienden a producir un código más legible. En un clúster de 14 nodos de Google Dataproc, tengo alrededor de 6 millones de nombres que ...

1 la respuesta

Aplicación de la función a la columna Spark Dataframe

Viniendo de R, estoy acostumbrado a realizar fácilmente operaciones en columnas. ¿Hay alguna manera fácil de tomar esta función que he escrito en scala? def round_tenths_place( un_rounded:Double ) : Double = { val rounded ...