Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

obtener TopN de todos los grupos después del grupo utilizando Spark DataFrame

Tengo un Spark SQL DataFrame: user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 ...Cómo agrupar por usuario y luego regresarTopN artículos de todos los grupos que usan Scala? Código de similitud con ...

2 la respuesta

Clasificación explícita en la transformación cartesiana en Scala Spark

Estoy usando la transformación cartesiana en Spark Scala. Si mi entrada consta de 4 elementos (podrían ser números / caracteres / tupla), diga var myRDD=sc.parallelize(Array("e1","e2","e3","e4"))myRDD.cartesian (myRDD) produciría todas las ...

6 la respuesta

¿Cómo agrego una nueva columna a un Spark DataFrame (usando PySpark)?

Tengo un Spark DataFrame (usando PySpark 1.5.1) y me gustaría agregar una nueva columna. He intentado lo siguiente sin ningún éxito: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, ...

2 la respuesta

Usando groupBy en Spark y volviendo a un DataFrame

Tengo dificultades cuando trabajo con marcos de datos en chispa con Scala. Si tengo un marco de datos que deseo extraer una columna de entradas únicas, cuando usogroupBy No me devuelven un marco de datos. Por ejemplo, tengo unDataFrame llamados ...

3 la respuesta

¿Cuál es la diferencia entre Apache Spark SQLContext y HiveContext?

¿Cuáles son las diferencias entre Apache Spark SQLContext y HiveContext? Algunas fuentes dicen que dado que HiveContext es un superconjunto de SQLContext, los desarrolladores siempre deben usar HiveContext, que tiene más funciones que ...

1 la respuesta

Rango de cálculo de una fila

Quiero clasificar la identificación del usuario en función de un campo. Para el mismo valor del campo, el rango debe ser el mismo. Esa información está en la tabla Hive. p.ej. user value a 5 b 10 c 5 d 6 Rank a - 1 c - 1 d - 3 b - 4¿Cómo puedo ...

1 la respuesta

¿Cómo ordenar por valor de manera eficiente en PySpark?

Quiero ordenar mis tuplas K, V por V, es decir, por el valor. Yo sé esoTakeOrdered es bueno para esto si sabes cuántos necesitas: b = sc.parallelize([('t',3),('b',4),('c',1)])UtilizandoTakeOrdered: b.takeOrdered(3,lambda atuple: ...

2 la respuesta

El marco de datos de Spark transforma varias filas en una columna

Soy un novato para encender, y quierotransformarabajomarco de datos de origen (cargar desde archivo JSON): +--+-----+-----+ |A |count|major| +--+-----+-----+ | a| 1| m1| | a| 1| m2| | a| 2| m3| | a| 3| m4| | b| 4| m1| | b| 1| m2| | b| 2| m3| | ...

1 la respuesta

Spark submit (2.3) en el clúster kubernetes de Python

Entonces, ahora que k8s está integrado directamente con la chispa en 2.3, mi envío de chispa desde la consola se ejecuta correctamente en un maestro de kuberenetes sin ninguna cápsula maestra de chispa en funcionamiento, la chispa maneja todos ...

2 la respuesta

Spark union de múltiples RDD

En mi código de cerdo hago esto: all_combined = Union relation1, relation2, relation3, relation4, relation5, relation 6.Quiero hacer lo mismo con chispa. Sin embargo, desafortunadamente, veo que tengo que seguir haciéndolo por pares: first = ...