Resultados de la búsqueda a petición "pyspark-sql"

2 la respuesta

pyspark aprox Función cuántica

Tengo un marco de datos con estas columnasid, price, timestamp. Me gustaría encontrar el valor medio agrupado porid. Estoy usando este código para encontrarlo, pero me está dando este error. from pyspark.sql import DataFrameStatFunctions as ...

2 la respuesta

Columna Spark Dataframe con el último carácter de otra columna

Estoy buscando una manera de obtener el último carácter de una cadena en una columna de marco de datos y colocarlo en otra columna. Tengo un marco de datos de Spark que se ve así: animal ====== cat mouse snakeQuiero algo como esto: lastchar ...

2 la respuesta

PySpark: obtenga el número de fila para cada fila de un grupo

Con pyspark, me gustaría poder agrupar un marco de datos de chispa, ordenar el grupo y luego proporcionar un número de fila. Entonces Group Date A 2000 A 2002 A 2007 B 1999 B 2015Se convertiría Group Date row_num A 2000 0 A 2002 1 A 2007 2 B ...

1 la respuesta

Cadena de conversión de Spark SQL a marca de tiempo

Soy nuevo en Spark SQL y estoy tratando de convertir una cadena en una marca de tiempo en un marco de datos de chispa. Tengo una cuerda que parece'2017-08-01T02:26:59.000Z' en una columna llamada time_string Mi código para convertir esta cadena ...

3 la respuesta

Mediana / cuantiles dentro del grupo PySpark

Me gustaría calcular cuantiles grupales en un marco de datos Spark (usando PySpark). Un resultado aproximado o exacto estaría bien. Prefiero una solución que pueda usar dentro del contexto degroupBy / agg, para poder mezclarlo con otras funciones ...

1 la respuesta

Problemas con la función redonda de Pyspark

Tengo algunos problemas para que funcione la función de redondeo en pyspar, k: tengo el siguiente bloque de código, donde estoy tratando de redondear elnew_bid columna a 2 decimales y cambie el nombre de la columna comobid luego - ...

3 la respuesta

Listar a DataFrame en pyspark

¿Alguien puede decirme cómo convertir una lista que contiene cadenas a un Dataframe en pyspark. Estoy usando python 3.6 con spark 2.2.1. Acabo de comenzar a aprender el entorno de chispa y mis datos se ven a ...

4 la respuesta

Cómo hacer buenos ejemplos reproducibles de Apache Spark

He pasado bastante tiempo leyendo algunas preguntas con elpyspark [/questions/tagged/pyspark]ymarco de datos de chispa [/questions/tagged/spark-dataframe]etiquetas y muy a menudo encuentro que los carteles no proporcionan suficiente información ...

1 la respuesta

Aplicar una transformación a múltiples columnas pyspark dataframe

Supongamos que tengo el siguiente marco de datos de chispa: +-----+-------+ | word| label| +-----+-------+ | red| color| | red| color| | blue| color| | blue|feeling| |happy|feeling| +-----+-------+Que se puede crear usando el siguiente ...

1 la respuesta

Contar el número de filas duplicadas en SPARKSQL

Tengo un requisito donde necesito contar el número de filas duplicadas en SparkSQL para las tablas de Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import ...