Resultados de la búsqueda a petición "apache-spark-sql"

3 la respuesta

¿Cómo crear un transformador personalizado desde un UDF?

Estaba tratando de crear y guardar unTubería [https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.ml.Pipeline] Con escenarios personalizados. Necesito agregar uncolumn para miDataFrame mediante el uso de unUDF. Por lo ...

2 la respuesta

spark.ml StringIndexer arroja 'Etiqueta invisible' en fit ()

Estoy preparando un juguetespark.ml ejemplo.Spark version 1.6.0, corriendo encima deOracle JDK version 1.8.0_65, pyspark, cuaderno de ipython. Primero, casi no tiene nada que ver conSpark, ML, StringIndexer: manejo de etiquetas ...

1 la respuesta

Aplicación de la función a la columna Spark Dataframe

Viniendo de R, estoy acostumbrado a realizar fácilmente operaciones en columnas. ¿Hay alguna manera fácil de tomar esta función que he escrito en scala? def round_tenths_place( un_rounded:Double ) : Double = { val rounded ...

5 la respuesta

¿Cómo evitar columnas duplicadas después de unir?

Tengo dos marcos de datos con las siguientes columnas: df1.columns // Array(ts, id, X1, X2)y df2.columns // Array(ts, id, Y1, Y2)Despues de hacer val df_combined = df1.join(df2, Seq(ts,id))Termino con las siguientes columnas:Array(ts, id, X1, ...

2 la respuesta

Encuentre la fila máxima por grupo en Spark DataFrame

Estoy tratando de usar marcos de datos Spark en lugar de RDD, ya que parecen ser de más alto nivel que los RDD y tienden a producir un código más legible. En un clúster de 14 nodos de Google Dataproc, tengo alrededor de 6 millones de nombres que ...

1 la respuesta

La transmisión no se produce al unir marcos de datos en Spark 1.6

A continuación se muestra el código de muestra que estoy ejecutando. cuando se ejecuta este trabajo de chispa, las uniones de trama de datos se realizan utilizando sortmergejoin en lugar de broadcastjoin. def joinedDf (sqlContext: SQLContext, ...

1 la respuesta

Apache Spark: asigna el resultado de UDF a varias columnas de trama de datos

Estoy usando pyspark, cargando un archivo csv grande en un marco de datos con spark-csv, y como paso de preprocesamiento necesito aplicar una variedad de operaciones a los datos disponibles en una de las columnas (que contiene una cadena json) . ...

1 la respuesta

¿Cómo pasar un valor constante a Python UDF?

Estaba pensando si era posible crear unUDF que recibe dos argumentos unColumn y otra variable (Object,Dictionary, o cualquier otro tipo), luego realice algunas operaciones y devuelva el resultado. En realidad, intenté hacer esto pero obtuve una ...

1 la respuesta

Comparta SparkContext entre Java y R Apps bajo el mismo Master

Así que aquí está la configuración. Actualmente tengo dos aplicaciones Spark inicializadas. Necesito pasar datos entre ellos (preferiblemente a través de sparkcontext / sqlcontext compartido para poder consultar una tabla temporal). Actualmente ...

1 la respuesta

pyspark: Convertir DataFrame a RDD [cadena]

Me gustaria convertirpyspark.sql.dataframe.DataFrame apyspark.rdd.RDD[String] Convertí un DataFramedf a RDDdata: data = df.rdd type (data) ## pyspark.rdd.RDDel nuevo RDDdata contieneRow first = data.first() type(first) ## pyspark.sql.types.Row ...