Resultados de la búsqueda a petición "spark-dataframe"

1 la respuesta

Apache spark que trata con declaraciones de casos

Estoy tratando de transformar el código SQL en código PySpark y encontré algunas declaraciones SQL. No sé cómo abordar las declaraciones de casos en pyspark? Estoy planeando crear un RDD y luego usar rdd.map y luego hacer algunas verificaciones ...

1 la respuesta

¿Por qué Apache Spark lee columnas innecesarias de Parquet dentro de estructuras anidadas?

Mi equipo está creando un proceso ETL para cargar archivos de texto delimitados sin procesar en un "lago de datos" basado en Parquet usando Spark. Una de las promesas de la tienda de columnas Parquet es que una consulta solo leerá las "franjas de ...

1 la respuesta

¿Cómo desactivar la notación científica en pyspark?

Como resultado de alguna agregación, se me ocurrió el siguiente cuadro de chispa: ------------+-----------------+-----------------+ |sale_user_id|gross_profit |total_sale_volume| +------------+-----------------+-----------------+ | ...

1 la respuesta

Spark Window Functions requiere HiveContext?

Estoy probando un ejemplo de función de ventana en spark de este ...

1 la respuesta

PySpark Cómo leer CSV en Dataframe y manipularlo

Soy bastante nuevo en pyspark y estoy tratando de usarlo para procesar un gran conjunto de datos que se guarda como un archivo csv. Me gustaría leer el archivo CSV en el marco de datos de chispa, soltar algunas columnas y agregar nuevas columnas. ...

1 la respuesta

Scala: Spark SQL to_date (unix_timestamp) que devuelve NULL

Spark Version: spark-2.0.1-bin-hadoop2.7 Scala: 2.11.8 Estoy cargando un csv en bruto en un DataFrame. En csv, aunque se admite que la columna esté en formato de fecha, se escriben como 20161025 en lugar de 2016-10-25. El parámetrodate_format ...

1 la respuesta

¿Cuál es la diferencia entre las funciones sort y orderBy en Spark?

¿Cuál es la diferencia entre sort y orderBy spark DataFrame? scala> zips.printSchema root |-- _id: string (nullable = true) |-- city: string (nullable = true) |-- loc: array (nullable = true) | |-- element: double (containsNull = true) |-- pop: ...

1 la respuesta

Cómo hacer operaciones matemáticas con dos columnas en el marco de datos usando pyspark

Tengo un marco de datos con tres columnas "x", "y" y "z" x y z bn 12452 221 mb 14521 330 pl 12563 160 lo 22516 142Necesito crear otra columna derivada de esta fórmula. (m = z / y+z)Entonces, los nuevos marcos de datos deberían verse así: x y z ...

1 la respuesta

GroupByKey y cree listas de valores pyspark sql dataframe

Entonces tengo un marco de datos de chispa que se parece a: a | b | c 5 | 2 | 1 5 | 4 | 3 2 | 4 | 2 2 | 3 | 7Y quiero agrupar por columnaa, cree una lista de valores de la columna b, y olvídese de c. El marco de datos de salida sería: a | ...

1 la respuesta

Aplicar una función a una sola columna de un csv en Spark

Usando Spark, estoy leyendo un csv y quiero aplicar una función a una columna en el csv. Tengo un código que funciona pero es muy hacky. ¿Cuál es la forma apropiada de hacer esto? Mi código SparkContext().addPyFile("myfile.py") spark = ...