Resultados de la búsqueda a petición "apache-spark-sql"

2 la respuesta

Explotar (¿transponer?) Varias columnas en la tabla Spark SQL

Estoy usando Spark SQL (menciono que está en Spark en caso de que afecte la sintaxis de SQL; todavía no estoy lo suficientemente familiarizado para estar seguro) y tengo una tabla que estoy tratando de reestructurar, pero estoy quedarse atascado ...

9 la respuesta

La mejor manera de obtener el valor máximo en una columna de marco de datos de Spark

Estoy tratando de encontrar la mejor manera de obtener el mayor valor en una columna de marco de datos de Spark. Considere el siguiente ejemplo: df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() Lo que ...

2 la respuesta

Tutorial de Apache zeppelin, error "intérprete sql no encontrado"

En el "Tutorial de zepelín"cuaderno, no puedo usar elintérprete% sql. Saldrá "sql interpreter not found". Pero los comandos de chispa funcionan bien, así como%md y%sh. Aquí está el registro: ERROR [2015-10-20 10: 13: 35,045] ({qtp885851948-51} ...

1 la respuesta

Funciones de ventana de chispa - rango entre fechas

Estoy teniendo un Spark SQLDataFrame con datos y lo que intento obtener es todas las filas que preceden a la fila actual en un rango de fechas dado. Entonces, por ejemplo, quiero tener todas las filas de 7 días anteriores a la fila dada. Descubrí ...

1 la respuesta

¿Cómo maneja Spark DataFrame el Pandas DataFrame que es más grande que la memoria?

Ahora estoy aprendiendo Spark, y parece ser la solución de Big Data para Pandas Dataframe, pero tengo esta pregunta que me hace inseguro. Actualmente estoy almacenando marcos de datos Pandas que son más grandes que la memoria usando HDF5. HDF5 ...

1 la respuesta

Pyspark y PCA: ¿Cómo puedo extraer los vectores propios de esta PCA? ¿Cómo puedo calcular cuánta varianza están explicando?

Estoy reduciendo la dimensionalidad de unSpark DataFrame conPCA modelo con pyspark (utilizando elspark ml biblioteca) de la siguiente manera: pca = PCA(k=3, inputCol="features", outputCol="pca_features") model = pca.fit(data)dóndedata es unSpark ...

1 la respuesta

Columna de matriz de acceso en Spark

Un Spark DataFrame contiene una columna de tipo Array [Double]. Lanza una excepción ClassCastException cuando intento recuperarlo en una función map (). El siguiente código Scala genera una excepción. case class Dummy( x:Array[Double] ) val df ...

1 la respuesta

Problemas con la ejecución de múltiples consultas usando Spark y HiveSQL

Espero que alguien pueda ayudarme con este problema. Dentro de spark-shell donde si intento algo como a continuación: var sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) var query = "select * from myDB.table limit 10; drop table if ...

2 la respuesta

Apache Spark lanza NullPointerException cuando encuentra una característica faltante

Tengo un problema extraño con PySpark al indexar columnas de cadenas en funciones. Aquí está mi archivo tmp.csv: x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1e2e,4.3,1donde me falta un valor ...

1 la respuesta

obtener TopN de todos los grupos después del grupo utilizando Spark DataFrame

Tengo un Spark SQL DataFrame: user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 ...Cómo agrupar por usuario y luego regresarTopN artículos de todos los grupos que usan Scala? Código de similitud con ...