Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

Particionamiento por múltiples columnas en Spark SQL

Con las funciones de ventana de Spark SQL, necesito particionar en varias columnas para ejecutar mis consultas de datos, de la siguiente manera: val w = Window.partitionBy($"a").partitionBy($"b").rangeBetween(-100, 0) Actualmente no tengo un ...

1 la respuesta

¿Cómo cambiar el tipo de columna de String a Date en DataFrames?

Tengo un marco de datos que tiene dos columnas (C, D) definidas como tipo de columna de cadena, pero los datos en las columnas son en realidad fechas. por ejemplo, la columna C tiene la fecha como "01-APR-2015" y la columna D como "20150401" ...

2 la respuesta

No se puede importar sqlContext.implicits._ sin un error a través de Jupyter

Cuando trato de usar elimport sqlContext.implicits._ en mi cuaderno Jupyter, aparece el siguiente error: Name: Compile Error Message: <console>:25: error: stable identifier required, but $iwC.this.$VAL10.sqlContext.implicits found. import ...

3 la respuesta

¿Qué significan las columnas "rawPrediction" y "probabilidad" de DataFrame en Spark MLlib?

Después de entrenar un modelo de regresión logística, transformé los datos de prueba DF con él y obtuve la predicción DF. Y luego, cuando llamo a prediction.show (), los nombres de las columnas de salida son:[label | features | rawPrediction | ...

4 la respuesta

Spark Dataframe validando nombres de columnas para escrituras de parquet (scala)

Estoy procesando eventos usando Dataframes convertidos a partir de una secuencia de eventos JSON que eventualmente se escribe como formato Parquet. Sin embargo, algunos de los eventos JSON contienen espacios en las teclas que deseo registrar y ...

2 la respuesta

cómo leer json con esquema en marcos de datos de chispa / spark sql

sql / dataframes, ayúdame o proporciona alguna buena sugerencia sobre cómo leer este json { "billdate":"2016-08-08', "accountid":"xxx" "accountdetails":{ "total":"1.1" "category":[ { "desc":"one", "currentinfo":{ "value":"10" }, "subcategory":[ ...

5 la respuesta

Spark DataFrame: ¿groupBy after orderBy mantiene ese orden?

Tengo un marco de datos Spark 2.0example con la siguiente estructura: id, hour, count id1, 0, 12 id1, 1, 55 .. id1, 23, 44 id2, 0, 12 id2, 1, 89 .. id2, 23, 34 etc.Contiene 24 entradas para cada id (una para cada hora del día) y se ordena por ...

2 la respuesta

Explotar en PySpark

Me gustaría transformar de un DataFrame que contiene listas de palabras en un DataFrame con cada palabra en su propia fila. ¿Cómo exploto en una columna en un DataFrame? Aquí hay un ejemplo con algunos de mis intentos en los que puede ...

1 la respuesta

Número de particiones del marco de datos de Spark

¿Alguien puede explicar sobre el número de particiones que se crearán para un Spark Dataframe. Sé que para un RDD, mientras lo creamos podemos mencionar el número de particiones como a continuación. val RDD1 = sc.textFile("path" , 6)Pero para ...

2 la respuesta

Error de chispa: se esperan cero argumentos para la construcción de ClassDict (para numpy.core.multiarray._reconstruct)

Tengo un marco de datos en Spark en el que una de las columnas contiene una matriz. Ahora, he escrito un UDF separado que convierte la matriz en otra matriz con valores distintos solo en ella. Ver ejemplo a continuación: Ex:[24,23,27,23]debería ...