Resultados de la búsqueda a petición "pyspark-sql"
Error de gasoducto
Estoy tratando de ejecutar un modelo de regresión logística multinomial from pyspark.sql import SparkSession spark = SparkSession.builder.appName('prepare_data').getOrCreate() from pyspark.sql.types import * spark.sql("DROP TABLE IF EXISTS ...
Cadena de conversión de Spark SQL a marca de tiempo
Soy nuevo en Spark SQL y estoy tratando de convertir una cadena en una marca de tiempo en un marco de datos de chispa. Tengo una cuerda que parece'2017-08-01T02:26:59.000Z' en una columna llamada time_string Mi código para convertir esta cadena ...
pyspark muestra el marco de datos como tabla con desplazamiento horizontal en el cuaderno de ipython
a pyspark.sql.DataFrame muestra desordenado conDataFrame.show() - líneas de ajuste en lugar de un pergamino. [/imgs/RQ4Ox.png] pero muestra conpandas.DataFrame.head [/imgs/s09mz.png] Probé estas opciones import IPython ...
E-num / get Dummies en pyspark
Me gustaría crear una función enPYSPARKque obtienen el marco de datos y la lista de parámetros (códigos / características categóricas) y devuelven el marco de datos con columnas ficticias adicionales como las categorías de las características en ...
Problemas con la función redonda de Pyspark
Tengo algunos problemas para que funcione la función de redondeo en pyspar, k: tengo el siguiente bloque de código, donde estoy tratando de redondear elnew_bid columna a 2 decimales y cambie el nombre de la columna comobid luego - ...
El almacenamiento en caché ordenado de Spark DataFrame crea trabajo no deseado
Quiero convertir un RDD en un DataFrame y quiero almacenar en caché los resultados del RDD: from pyspark.sql import * from pyspark.sql.types import * import pyspark.sql.functions as fn schema = StructType([StructField('t', ...
Cómo usar matplotlib para trazar resultados de pyspark sql
Soy nuevo en pyspark. Quiero trazar el resultado usando matplotlib, pero no estoy seguro de qué función usar. Busqué una manera de convertir el resultado sql a pandas y luego usar plot.
¿Cómo pivotar en múltiples columnas en Spark SQL?
Necesito pivotar más de una columna en un marco de datos pyspark. Marco de datos de muestra, >>> d ...
Mediana / cuantiles dentro del grupo PySpark
Me gustaría calcular cuantiles grupales en un marco de datos Spark (usando PySpark). Un resultado aproximado o exacto estaría bien. Prefiero una solución que pueda usar dentro del contexto degroupBy / agg, para poder mezclarlo con otras funciones ...
Spark - ¿Ventana con recursividad? - Propagación condicional de valores entre filas
Tengo el siguiente marco de datos que muestra los ingresos de las compras. +-------+--------+-------+ |user_id|visit_id|revenue| +-------+--------+-------+ | 1| 1| 0| | 1| 2| 0| | 1| 3| 0| | 1| 4| 100| | 1| 5| 0| | 1| 6| 0| | 1| 7| 200| | 1| 8| ...