Resultados de la búsqueda a petición "pyspark"
Acoplar marco de datos de chispa anidada
¿Hay alguna manera de aplanar un Spark Dataframe anidado arbitrariamente? La mayor parte del trabajo que estoy viendo está escrito para un esquema específico, y me gustaría poder aplanar genéricamente un Dataframe con diferentes tipos anidados ...
PySpark 1.5 Cómo truncar la marca de tiempo al minuto más cercano desde segundos
Estoy usando PySpark. Tengo una columna ('dt') en un marco de datos ('canon_evt') que es una marca de tiempo. Estoy tratando de eliminar segundos de un valor DateTime. Originalmente se lee desde el parquet como una cadena. Luego trato de ...
Spark agrega una nueva columna al marco de datos con el valor de la fila anterior
Me pregunto cómo puedo lograr lo siguiente en Spark (Pyspark) Marco de datos inicial: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+Marco de datos resultante: +--+---+-------+ ...
Devuelve RDD de los mayores valores de N de otro RDD en SPARK
Estoy tratando de filtrar un RDD de tuplas para devolver las N tuplas más grandes basadas en valores clave. Necesito que el formato de devolución sea un RDD. Entonces el RDD: [(4, 'a'), (12, 'e'), (2, 'u'), (49, 'y'), (6, 'p')]filtrado para las ...
pyspark divide una columna en varias columnas sin pandas
Mi pregunta es cómo dividir una columna en varias columnas. No se porquedf.toPandas() No funciona. Por ejemplo, me gustaría cambiar 'df_test' a 'df_test2'. Vi muchos ejemplos usando el módulo pandas. ¿Hay otra manera? Gracias de ...
El archivo .py de importación de Pyspark no funciona
Mi objetivo es importar un archivo .py personalizado en mi aplicación spark y llamar a algunas de las funciones incluidas dentro de ese archivo Esto es lo que probé: Tengo un archivo de prueba llamadoTest.pyque se ve de la siguiente ...
Transformación estilo pandas de datos agrupados en PySpark DataFrame
Si tenemos un marco de datos Pandas que consiste en una columna de categorías y una columna de valores, podemos eliminar la media en cada categoría haciendo lo siguiente: df["DemeanedValues"] = df.groupby("Category")["Values"].transform(lambda ...
Spark __getnewargs__ error
Estoy tratando de limpiar un Spark DataFrame asignándolo a RDD y luego nuevamente a DataFrame. Aquí hay un ejemplo de juguete: def replace_values(row,sub_rules): d = row.asDict() for col,old_val,new_val in sub_rules: if d[col] == old_val: d[col] ...
¿Cómo crear un DataFrame a partir de filas mientras se conserva el esquema existente?
Si llamo mapa omapPartition y mi función recibe filas de PySpark, ¿cuál es la forma natural de crear un PySpark local o un Pandas DataFrame? ¿Algo que combine las filas y conserve el esquema? Actualmente hago algo como: def combine(partition): ...
Crear histogramas agrupados en Spark
Supongamos que tengo un marco de datos (df) (Pandas) o RDD (Spark) con las siguientes dos columnas: timestamp, data 12345.0 10 12346.0 12En Pandas, puedo crear un histograma en bin de diferentes longitudes de bin con bastante facilidad. Por ...