Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

Error: scalac: mala referencia simbólica. Una firma en SQLContext.class se refiere al tipo Logging en el paquete org.apache.spark que no está disponible

Cuando cumplí con un archivo scala utilizado IntelliJ IDEA, se mostró el siguiente error. Error: scalac: mala referencia simbólica. Una firma en SQLContext.class se refiere al tipo Logging en el paquete org.apache.spark que no está ...

2 la respuesta

¿Cómo agregar datos en rangos (bucketize)?

Tengo una mesa como +---------------+------+ |id | value| +---------------+------+ | 1|118.0| | 2|109.0| | 3|113.0| | 4| 82.0| | 5| 60.0| | 6|111.0| | 7|107.0| | 8| 84.0| | 9| 91.0| | 10|118.0| +---------------+------+ans desea agregar o bin los ...

1 la respuesta

Cómo definir UDAF sobre ventanas de tiempo de evento en PySpark 2.1.0

[/imgs/NQvm9.png] Estoy escribiendo una aplicación Python que desliza una ventana sobre una secuencia de valores, cada uno con una marca de tiempo. Quiero aplicar una función a los valores en la ventana deslizante para calcular una puntuación ...

1 la respuesta

¿Cómo agrupar por elemento común en la matriz?

Estoy tratando de encontrar la solución en spark para agrupar datos con un elemento común en una matriz. key value [k1,k2] v1 [k2] v2 [k3,k2] v3 [k4] v4Si algún elemento coincide en la clave, tenemos que asignar el mismo groupid a eso. (Grupo ...

1 la respuesta

Apache Spark Python Cosine Similitud sobre DataFrames

Para un sistema de recomendación, necesito calcular la similitud de coseno entre todas las columnas de un Spark DataFrame completo. En Pandas solía hacer esto: import sklearn.metrics as metrics import pandas as pd df= ...

1 la respuesta

Spark Dataframe: generar una matriz de tuplas a partir de un tipo de mapa

Mi fuente aguas abajo no admite un tipo de Mapa y mi fuente sí y, como tal, lo envía. Necesito convertir este mapa en una matriz de estructura (tupla). Scala admite Map.toArray, que crea una matriz de tuplas para usted, que parece ser la función ...

3 la respuesta

Pyspark: Reemplazar valor en una columna buscando un diccionario

Soy un novato en PySpark. Tengo una chispaDataFrame df que tiene una columna 'tipo_dispositivo'. Quiero reemplazar cada valor que está en "Tableta" o "Teléfono" a "Teléfono", y reemplazar "PC" a "Escritorio". En Python puedo hacer lo ...

2 la respuesta

¿Spark.sql.autoBroadcastJoinThreshold funciona para uniones usando el operador de unión de Dataset?

Me gustaria saber sispark.sql.autoBroadcastJoinThreshold La propiedad puede ser útil para difundir una tabla más pequeña en todos los nodos de trabajo (al hacer la unión) incluso cuando el esquema de unión usa la unión de la API del conjunto de ...

3 la respuesta

¿Cómo funciona createOrReplaceTempView en Spark?

Soy nuevo en Spark y Spark SQL. CómocreateOrReplaceTempView trabaja en Spark? Si registramos unRDD de objetos como una tabla provocará mantener todos los datos en la memoria?

2 la respuesta

¿Cómo calcular la diferencia de fecha en pyspark?

Tengo datos como este: df = sqlContext.createDataFrame([ ('1986/10/15', 'z', 'null'), ('1986/10/15', 'z', 'null'), ('1986/10/15', 'c', 'null'), ('1986/10/15', 'null', 'null'), ('1986/10/16', 'null', '4.0')], ('low', 'high', 'normal'))Quiero ...