Resultados de la búsqueda a petición "pyspark-sql"

1 la respuesta

Error de gasoducto

Estoy tratando de ejecutar un modelo de regresión logística multinomial from pyspark.sql import SparkSession spark = SparkSession.builder.appName('prepare_data').getOrCreate() from pyspark.sql.types import * spark.sql("DROP TABLE IF EXISTS ...

1 la respuesta

Cadena de conversión de Spark SQL a marca de tiempo

Soy nuevo en Spark SQL y estoy tratando de convertir una cadena en una marca de tiempo en un marco de datos de chispa. Tengo una cuerda que parece'2017-08-01T02:26:59.000Z' en una columna llamada time_string Mi código para convertir esta cadena ...

2 la respuesta

pyspark muestra el marco de datos como tabla con desplazamiento horizontal en el cuaderno de ipython

a pyspark.sql.DataFrame muestra desordenado conDataFrame.show() - líneas de ajuste en lugar de un pergamino. [/imgs/RQ4Ox.png] pero muestra conpandas.DataFrame.head [/imgs/s09mz.png] Probé estas opciones import IPython ...

4 la respuesta

E-num / get Dummies en pyspark

Me gustaría crear una función enPYSPARKque obtienen el marco de datos y la lista de parámetros (códigos / características categóricas) y devuelven el marco de datos con columnas ficticias adicionales como las categorías de las características en ...

1 la respuesta

Problemas con la función redonda de Pyspark

Tengo algunos problemas para que funcione la función de redondeo en pyspar, k: tengo el siguiente bloque de código, donde estoy tratando de redondear elnew_bid columna a 2 decimales y cambie el nombre de la columna comobid luego - ...

1 la respuesta

El almacenamiento en caché ordenado de Spark DataFrame crea trabajo no deseado

Quiero convertir un RDD en un DataFrame y quiero almacenar en caché los resultados del RDD: from pyspark.sql import * from pyspark.sql.types import * import pyspark.sql.functions as fn schema = StructType([StructField('t', ...

1 la respuesta

Cómo usar matplotlib para trazar resultados de pyspark sql

Soy nuevo en pyspark. Quiero trazar el resultado usando matplotlib, pero no estoy seguro de qué función usar. Busqué una manera de convertir el resultado sql a pandas y luego usar plot.

2 la respuesta

¿Cómo pivotar en múltiples columnas en Spark SQL?

Necesito pivotar más de una columna en un marco de datos pyspark. Marco de datos de muestra, >>> d ...

3 la respuesta

Mediana / cuantiles dentro del grupo PySpark

Me gustaría calcular cuantiles grupales en un marco de datos Spark (usando PySpark). Un resultado aproximado o exacto estaría bien. Prefiero una solución que pueda usar dentro del contexto degroupBy / agg, para poder mezclarlo con otras funciones ...

1 la respuesta

Spark - ¿Ventana con recursividad? - Propagación condicional de valores entre filas

Tengo el siguiente marco de datos que muestra los ingresos de las compras. +-------+--------+-------+ |user_id|visit_id|revenue| +-------+--------+-------+ | 1| 1| 0| | 1| 2| 0| | 1| 3| 0| | 1| 4| 100| | 1| 5| 0| | 1| 6| 0| | 1| 7| 200| | 1| 8| ...