Resultados de la búsqueda a petición "rdd"

1 la respuesta

¿Cómo escribir Pyspark UDAF en varias columnas?

Tengo los siguientes datos en un marco de datos pyspark llamadoend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BY quiero agregarlo de la siguiente manera: Quiero usar las ...

1 la respuesta

Use combineByKey para obtener resultados como (clave, [valores] iterables)

Estoy tratando de transformarRDD(key,value) aRDD(key,iterable[value]), igual que la salida devuelta por elgroupByKey método. Pero comogroupByKey no es eficiente, estoy tratando de usarcombineByKey en cambio, en el RDD, sin embargo, no funciona. A ...

1 la respuesta

Cómo extraer un elemento de una matriz en pyspark

Tengo un marco de datos con el siguiente tipo col1|col2|col3|col4 xxxx|yyyy|zzzz|[1111],[2222]Quiero que mi salida sea del siguiente tipo col1|col2|col3|col4|col5 xxxx|yyyy|zzzz|1111|2222Mi col4 es una matriz y quiero convertirlo en una columna ...

2 la respuesta

¿Qué recupera Spark los datos de un nodo fallido?

Supongamos que tenemos un RDD, que se usa varias veces. Entonces, para guardar los cálculos una y otra vez, persistimos en este RDD usando el método rdd.persist (). Entonces, cuando persistimos en este RDD, los nodos que computan el ...

3 la respuesta

¿Cómo ordenar un RDD en Scala Spark?

Lectura del método Spark sortByKey: sortByKey([ascending], [numTasks]) When called on a dataset of (K, V) pairs where K implements Ordered, returns a dataset of (K, V) pairs sorted by keys in ascending or descending order, as specified in the ...

2 la respuesta

Spark - scala: baraja RDD / divide RDD en dos partes aleatorias al azar

¿Cómo puedo tomar una matriz rdd de chispa y dividirla en dos rdds al azar para que cada rdd incluya alguna parte de los datos (digamos 97% y 3%)? Pensé en barajar la lista y luegoshuffledList.take((0.97*rddList.count).toInt) Pero, ¿cómo puedo ...

4 la respuesta

Cómo leer desde hbase usando spark

El siguiente código se leerá desde la base de datos, luego lo convertirá en estructura json y lo convertirá en schemaRDD, pero el problema es que soyusing List para almacenar la cadena json y luego pasar a javaRDD, para datos de aproximadamente ...

2 la respuesta

¿Cómo funciona DAG debajo de las cubiertas en RDD?

losTrabajo de investigación de chispa [http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf]ha prescrito un nuevo modelo de programación distribuida sobre Hadoop MapReduce clásico, alegando la simplificación y el gran aumento del ...

2 la respuesta

¿Cómo puedo obtener una posición de elemento en el RDD de Spark?

Soy nuevo en Apache Spark y sé que la estructura de datos central es RDD. Ahora estoy escribiendo algunas aplicaciones que requieren información de posición del elemento. Por ejemplo, después de convertir una ArrayList en un RDD (Java), para cada ...

3 la respuesta

Cómo obtener elementos por índice en Spark RDD (Java)

Conozco el método rdd.first () que me da el primer elemento en un RDD. También está el método rdd.take (num) que me da los primeros elementos "num". Pero, ¿no existe la posibilidad de obtener un elemento por índice? Gracias.