Resultados de la búsqueda a petición "apache-spark"
¿Cómo pasar un valor constante a Python UDF?
Estaba pensando si era posible crear unUDF que recibe dos argumentos unColumn y otra variable (Object,Dictionary, o cualquier otro tipo), luego realice algunas operaciones y devuelva el resultado. En realidad, intenté hacer esto pero obtuve una ...
tablas de caché en apache spark sql
Del oficial de Sparkdocumento [http://spark.apache.org/docs/latest/sql-programming-guide.html#caching-data-in-memory] , dice: Spark SQL puede almacenar en caché las tablas usando un formato de columnas en memoria llamando a sqlContext.cacheTable ...
¿Cuál es la diferencia entre Spark DataSet y RDD?
Todavía estoy luchando por comprender todo el poder de los conjuntos de datos Spark recientemente introducidos. ¿Existen mejores prácticas sobre cuándo usar RDD y cuándo usar conjuntos de datos? En ...
Aplicando IndexToString al vector de características en Spark
Contexto:Tengo un marco de datos donde todos los valores categóricos se han indexado usando StringIndexer. val categoricalColumns = df.schema.collect { case StructField(name, StringType, nullable, meta) => name } val categoryIndexers = ...
pyspark: Convertir DataFrame a RDD [cadena]
Me gustaria convertirpyspark.sql.dataframe.DataFrame apyspark.rdd.RDD[String] Convertí un DataFramedf a RDDdata: data = df.rdd type (data) ## pyspark.rdd.RDDel nuevo RDDdata contieneRow first = data.first() type(first) ## pyspark.sql.types.Row ...
Diferencia de cálculo entre Spark DataFrames
tengo dosDataFrames df1 ydf2,. Quiero calcular un terceroDataFrame ``df3 tal quedf3 = (df1 - df2) es decir, todos los elementos presentes en df1 pero no en df2. ¿Hay alguna función de biblioteca incorporada para lograr algo así comodf1.subtract(df2)?
Comportamiento de particionador aleatorio en el RDD unido
Estoy tratando de unir dos conjuntos de datos. Uno de tipo (Id, salesRecord) otro (Id, Nombre). El primer conjunto de datos está particionado por HashPartitioner y el segundo está particionado por Particionador personalizado. Cuando me uno a ...
Excepción incompatible de clase local: cuando se ejecuta la chispa independiente desde IDE
Empiezo a probar chispa. Instalé spark en mi máquina local y ejecuté un clúster local con un solo trabajador. cuando intenté ejecutar mi trabajo desde mi IDE configurando sparconf de la siguiente manera: final SparkConf conf = ...
¿Cómo agregar un archivo de configuración typesafe que se encuentra en HDFS para enviar por chispa (modo de clúster)?
Tengo una aplicación Spark (Spark 1.5.2) que transmite datos desde Kafka a HDFS. Mi aplicación contiene dos archivos de configuración Typesafe para configurar ciertas cosas como el tema de Kafka, etc. Ahora quiero ejecutar mi aplicación con ...
Use collect_list y collect_set en Spark SQL
De acuerdo con ladocs [http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions$] , elcollect_set ycollect_list Las funciones deben estar disponibles en Spark SQL. Sin embargo, no puedo hacer que funcione. Estoy ...