Resultados de la búsqueda a petición "pyspark"

3 la respuesta

Acoplar marco de datos de chispa anidada

¿Hay alguna manera de aplanar un Spark Dataframe anidado arbitrariamente? La mayor parte del trabajo que estoy viendo está escrito para un esquema específico, y me gustaría poder aplanar genéricamente un Dataframe con diferentes tipos anidados ...

2 la respuesta

PySpark 1.5 Cómo truncar la marca de tiempo al minuto más cercano desde segundos

Estoy usando PySpark. Tengo una columna ('dt') en un marco de datos ('canon_evt') que es una marca de tiempo. Estoy tratando de eliminar segundos de un valor DateTime. Originalmente se lee desde el parquet como una cadena. Luego trato de ...

2 la respuesta

Spark agrega una nueva columna al marco de datos con el valor de la fila anterior

Me pregunto cómo puedo lograr lo siguiente en Spark (Pyspark) Marco de datos inicial: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+Marco de datos resultante: +--+---+-------+ ...

2 la respuesta

Devuelve RDD de los mayores valores de N de otro RDD en SPARK

Estoy tratando de filtrar un RDD de tuplas para devolver las N tuplas más grandes basadas en valores clave. Necesito que el formato de devolución sea un RDD. Entonces el RDD: [(4, 'a'), (12, 'e'), (2, 'u'), (49, 'y'), (6, 'p')]filtrado para las ...

1 la respuesta

pyspark divide una columna en varias columnas sin pandas

Mi pregunta es cómo dividir una columna en varias columnas. No se porquedf.toPandas() No funciona. Por ejemplo, me gustaría cambiar 'df_test' a 'df_test2'. Vi muchos ejemplos usando el módulo pandas. ¿Hay otra manera? Gracias de ...

1 la respuesta

El archivo .py de importación de Pyspark no funciona

Mi objetivo es importar un archivo .py personalizado en mi aplicación spark y llamar a algunas de las funciones incluidas dentro de ese archivo Esto es lo que probé: Tengo un archivo de prueba llamadoTest.pyque se ve de la siguiente ...

2 la respuesta

Transformación estilo pandas de datos agrupados en PySpark DataFrame

Si tenemos un marco de datos Pandas que consiste en una columna de categorías y una columna de valores, podemos eliminar la media en cada categoría haciendo lo siguiente: df["DemeanedValues"] = df.groupby("Category")["Values"].transform(lambda ...

1 la respuesta

Spark __getnewargs__ error

Estoy tratando de limpiar un Spark DataFrame asignándolo a RDD y luego nuevamente a DataFrame. Aquí hay un ejemplo de juguete: def replace_values(row,sub_rules): d = row.asDict() for col,old_val,new_val in sub_rules: if d[col] == old_val: d[col] ...

4 la respuesta

¿Cómo crear un DataFrame a partir de filas mientras se conserva el esquema existente?

Si llamo mapa omapPartition y mi función recibe filas de PySpark, ¿cuál es la forma natural de crear un PySpark local o un Pandas DataFrame? ¿Algo que combine las filas y conserve el esquema? Actualmente hago algo como: def combine(partition): ...

2 la respuesta

Crear histogramas agrupados en Spark

Supongamos que tengo un marco de datos (df) (Pandas) o RDD (Spark) con las siguientes dos columnas: timestamp, data 12345.0 10 12346.0 12En Pandas, puedo crear un histograma en bin de diferentes longitudes de bin con bastante facilidad. Por ...