Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

Pyspark y PCA: ¿Cómo puedo extraer los vectores propios de esta PCA? ¿Cómo puedo calcular cuánta varianza están explicando?

Estoy reduciendo la dimensionalidad de unSpark DataFrame conPCA modelo con pyspark (utilizando elspark ml biblioteca) de la siguiente manera: pca = PCA(k=3, inputCol="features", outputCol="pca_features") model = pca.fit(data)dóndedata es unSpark ...

1 la respuesta

Problemas con la ejecución de múltiples consultas usando Spark y HiveSQL

Espero que alguien pueda ayudarme con este problema. Dentro de spark-shell donde si intento algo como a continuación: var sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) var query = "select * from myDB.table limit 10; drop table if ...

1 la respuesta

obtener TopN de todos los grupos después del grupo utilizando Spark DataFrame

Tengo un Spark SQL DataFrame: user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 ...Cómo agrupar por usuario y luego regresarTopN artículos de todos los grupos que usan Scala? Código de similitud con ...

1 la respuesta

Rango de cálculo de una fila

Quiero clasificar la identificación del usuario en función de un campo. Para el mismo valor del campo, el rango debe ser el mismo. Esa información está en la tabla Hive. p.ej. user value a 5 b 10 c 5 d 6 Rank a - 1 c - 1 d - 3 b - 4¿Cómo puedo ...

1 la respuesta

Filtrado de Sparksql (selección con cláusula where) con múltiples condiciones

Hola, tengo el siguiente problema: numeric.registerTempTable("numeric").Todos los valores que quiero filtrar son cadenas nulas literales y no N / A o valores nulos. Probé estas tres opciones: numeric_filtered = numeric.filter(numeric['LOW'] ...

1 la respuesta

Atributos de referencia de Spark SQL de UDT

Estoy tratando de implementar un UDT personalizado y poder hacer referencia a él desde Spark SQL (como se explica en el documento técnico de Spark SQL, sección 4.4.2). El ejemplo real es tener un UDT personalizado respaldado por una estructura ...

1 la respuesta

Elección de elementos aleatorios de un objeto Spark GroupedData

Soy nuevo en el uso de Spark en Python y no he podido resolver este problema: después de ejecutargroupBy en unpyspark.sql.dataframe.DataFrame df = sqlsc.read.json("data.json") df.groupBy('teamId')como puedes elegirN ¿Muestras aleatorias de cada ...

1 la respuesta

SparkSQL: suma condicional usando dos columnas

Espero me puedas ayudar con esto. Tengo un DF de la siguiente manera: val df = sc.parallelize(Seq( (1, "a", "2014-12-01", "2015-01-01", 100), (2, "a", "2014-12-01", "2015-01-02", 150), (3, "a", "2014-12-01", "2015-01-03", 120), (4, "b", ...

1 la respuesta

Cómo filtrar por rango de fechas en Spark SQL

Estoy tratando de filtrar el rango de fechas de los siguientes datos usando ladrillos de datos, que devuelve nulo como respuesta. Mis datos csv se ven así: ID, Desc, Week_Ending_Date 100, AAA, 13-06-2015 101, BBB, 11-07-2015 102, CCC, 15-08-2015 ...

1 la respuesta

Devolución de múltiples matrices de la función agregada definida por el usuario (UDAF) en Apache Spark SQL

Estoy tratando de crear una función agregada definida por el usuario (UDAF) en Java usando Apache Spark SQL que devuelve múltiples matrices al finalizar. He buscado en línea y no puedo encontrar ningún ejemplo o sugerencia sobre ...