Resultados de la búsqueda a petición "apache-spark"

3 la respuesta

¿Cómo puedo contar el promedio de Spark RDD?

Tengo un problema con Spark Scala que quiero contar el promedio de los datos de Rdd, creo un nuevo RDD como este, [(2,110),(2,130),(2,120),(3,200),(3,206),(3,206),(4,150),(4,160),(4,170)]Quiero contarlos ...

1 la respuesta

convertir cadena con nanosegundos en marca de tiempo en chispa

¿Hay alguna manera de convertir un valor de marca de tiempo con nano segundos a marca de tiempo en chispa? Recibo la entrada de un archivo csv y el valor de la marca de tiempo es de formato12-12-2015 14:09:36.992415+01:00. Este es el código que ...

1 la respuesta

¿Cómo escribir Pyspark UDAF en varias columnas?

Tengo los siguientes datos en un marco de datos pyspark llamadoend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BY quiero agregarlo de la siguiente manera: Quiero usar las ...

2 la respuesta

¿Cómo convertir un DataFrame simple en un DataSet Spark Scala con clase de caso?

Estoy tratando de convertir un DataFrame simple en un DataSet del ejemplo en Spark:https://spark.apache.org/docs/latest/sql-programming-guide.html [https://spark.apache.org/docs/latest/sql-programming-guide.html] case class Person(name: String, ...

2 la respuesta

Cómo monitorear continuamente un directorio utilizando Spark Structured Streaming

Quiero que spark supervise continuamente un directorio y lea los archivos CSV usandospark.readStream tan pronto como el archivo aparezca en ese directorio. No incluya una solución de Spark Streaming. Estoy buscando una manera de ...

1 la respuesta

Use combineByKey para obtener resultados como (clave, [valores] iterables)

Estoy tratando de transformarRDD(key,value) aRDD(key,iterable[value]), igual que la salida devuelta por elgroupByKey método. Pero comogroupByKey no es eficiente, estoy tratando de usarcombineByKey en cambio, en el RDD, sin embargo, no funciona. A ...

4 la respuesta

obtener el tipo de datos de la columna usando pyspark

Estamos leyendo datos de MongoDBCollection. Collection La columna tiene dos valores diferentes (por ejemplo:(bson.Int64,int) (int,float) ) Estoy tratando de obtener un tipo de datos usando pyspark. Mi problema es que algunas columnas tienen un ...

2 la respuesta

¿Cómo pivotar en múltiples columnas en Spark SQL?

Necesito pivotar más de una columna en un marco de datos pyspark. Marco de datos de muestra, >>> d ...

0 la respuesta

Difundir una clase definida por el usuario en Spark

Estoy tratando de transmitir una variable definida por el usuario en una aplicación PySpark pero siempre tengo el siguiente error: File "/usr/local/spark-2.1.0-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/worker.py", line 174, in main process() ...

1 la respuesta

¿Cómo agregar una columna a una estructura explotada en Spark?

Digamos que tengo los siguientes datos: {"id":1, "payload":[{"foo":1, "lol":2},{"foo":2, "lol":2}]}Me gustaría explotar la carga útil y agregarle una columna, como esta: df = df.select('id', F.explode('payload').alias('data')) df ...