Resultados de la búsqueda a petición "apache-spark-sql"

Estaba tratando de crear y guardar unTubería [https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.ml.Pipeline] Con escenarios personalizados. Necesito agregar uncolumn para miDataFrame mediante el uso de unUDF. Por lo ...

apache-spark dataframe pyspark apache-spark-ml

2 la respuesta

spark.ml StringIndexer arroja 'Etiqueta invisible' en fit ()

Estoy preparando un juguetespark.ml ejemplo.Spark version 1.6.0, corriendo encima deOracle JDK version 1.8.0_65, pyspark, cuaderno de ipython. Primero, casi no tiene nada que ver conSpark, ML, StringIndexer: manejo de etiquetas ...

dataframe scala apache-spark user-defined-functions

1 la respuesta

Aplicación de la función a la columna Spark Dataframe

Viniendo de R, estoy acostumbrado a realizar fácilmente operaciones en columnas. ¿Hay alguna manera fácil de tomar esta función que he escrito en scala? def round_tenths_place( un_rounded:Double ) : Double = { val rounded ...

apache-spark scala

5 la respuesta

¿Cómo evitar columnas duplicadas después de unir?

Tengo dos marcos de datos con las siguientes columnas: df1.columns // Array(ts, id, X1, X2)y df2.columns // Array(ts, id, Y1, Y2)Despues de hacer val df_combined = df1.join(df2, Seq(ts,id))Termino con las siguientes columnas:Array(ts, id, X1, ...

apache-spark pyspark

2 la respuesta

Encuentre la fila máxima por grupo en Spark DataFrame

Estoy tratando de usar marcos de datos Spark en lugar de RDD, ya que parecen ser de más alto nivel que los RDD y tienden a producir un código más legible. En un clúster de 14 nodos de Google Dataproc, tengo alrededor de 6 millones de nombres que ...

apache-spark scala query-optimization join

1 la respuesta

La transmisión no se produce al unir marcos de datos en Spark 1.6

A continuación se muestra el código de muestra que estoy ejecutando. cuando se ejecuta este trabajo de chispa, las uniones de trama de datos se realizan utilizando sortmergejoin en lugar de broadcastjoin. def joinedDf (sqlContext: SQLContext, ...

python apache-spark user-defined-functions pyspark

1 la respuesta

Apache Spark: asigna el resultado de UDF a varias columnas de trama de datos

Estoy usando pyspark, cargando un archivo csv grande en un marco de datos con spark-csv, y como paso de preprocesamiento necesito aplicar una variedad de operaciones a los datos disponibles en una de las columnas (que contiene una cadena json) . ...

python user-defined-functions pyspark apache-spark

1 la respuesta

¿Cómo pasar un valor constante a Python UDF?

Estaba pensando si era posible crear unUDF que recibe dos argumentos unColumn y otra variable (Object,Dictionary, o cualquier otro tipo), luego realice algunas operaciones y devuelva el resultado. En realidad, intenté hacer esto pero obtuve una ...

dataframe apache-spark r java

1 la respuesta

Comparta SparkContext entre Java y R Apps bajo el mismo Master

Así que aquí está la configuración. Actualmente tengo dos aplicaciones Spark inicializadas. Necesito pasar datos entre ellos (preferiblemente a través de sparkcontext / sqlcontext compartido para poder consultar una tabla temporal). Actualmente ...

pyspark python dataframe apache-spark

1 la respuesta

pyspark: Convertir DataFrame a RDD [cadena]

Me gustaria convertirpyspark.sql.dataframe.DataFrame apyspark.rdd.RDD[String] Convertí un DataFramedf a RDDdata: data = df.rdd type (data) ## pyspark.rdd.RDDel nuevo RDDdata contieneRow first = data.first() type(first) ## pyspark.sql.types.Row ...

Página 46 de 52

44 454647 48

Resultados de la búsqueda a petición "apache-spark-sql"

¿Cómo crear un transformador personalizado desde un UDF?

spark.ml StringIndexer arroja 'Etiqueta invisible' en fit ()

Aplicación de la función a la columna Spark Dataframe

Etiquetas Populares

¿Cómo evitar columnas duplicadas después de unir?

Encuentre la fila máxima por grupo en Spark DataFrame

La transmisión no se produce al unir marcos de datos en Spark 1.6

Apache Spark: asigna el resultado de UDF a varias columnas de trama de datos

¿Cómo pasar un valor constante a Python UDF?

Comparta SparkContext entre Java y R Apps bajo el mismo Master

pyspark: Convertir DataFrame a RDD [cadena]

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark-sql"

Etiquetas Populares