Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

Spark fusionar / combinar matrices en grupo Por / agregado

El siguiente código de Spark muestra correctamente lo que quiero hacer y genera la salida correcta con un pequeño conjunto de datos de demostración. Cuando ejecuto este mismo tipo general de código en un gran volumen de datos de producción, ...

2 la respuesta

¿Por qué las columnas cambian a nulables en Apache Spark SQL?

Por que esnullable = true se usa después de ejecutar algunas funciones, aunque no haya valores NaN enDataFrame. val myDf = Seq((2,"A"),(2,"B"),(1,"C")) .toDF("foo","bar") .withColumn("foo", 'foo.cast("Int")) myDf.withColumn("foo_2", when($"foo" ...

1 la respuesta

Cómo obtener claves y valores de la columna MapType en SparkSQL DataFrame

Tengo datos en un archivo de parquet que tiene 2 campos:object_id: String yalpha: Map<>. Se lee en un marco de datos en sparkSQL y el esquema se ve así: scala> alphaDF.printSchema() root |-- object_id: string (nullable = true) |-- ALPHA: map ...

2 la respuesta

Pyspark: función de ventana personalizada

Actualmente estoy tratando de extraer series de ocurrencias consecutivas en un marco de datos PySpark y ordenarlas / clasificarlas como se muestra a continuación (por conveniencia, he ordenado el marco de datos inicial ...

1 la respuesta

Use más de una collect_list en una consulta en Spark SQL

Tengo el siguiente marco de datosdata: root |-- userId: string |-- product: string |-- rating: doubley la siguiente consulta: val result = sqlContext.sql("select userId, collect_list(product), collect_list(rating) from data group by userId")Mi ...

2 la respuesta

Realizar una unión escrita en Scala con conjuntos de datos de Spark

Me gustan los conjuntos de datos de Spark, ya que me dan errores de análisis y errores de sintaxis en el momento de la compilación y también me permiten trabajar con getters en lugar de nombres / números codificados. La mayoría de los cálculos se ...

1 la respuesta

Operador Spark SQL "<=>"

Recientemente me encontré con este operador: "<=>" en un proyecto de Scala Spark. Tengo problemas para encontrar documentación al respecto. ¿Alguien sabe cómo funciona, o sabe de alguna documentación? Creo que tiene algo que ver con las ...

3 la respuesta

Lectura de archivos csv con campos entre comillas que contienen comas incrustadas

Estoy leyendo un archivo csv en Pyspark de la siguiente manera: df_raw=spark.read.option("header","true").csv(csv_path)Sin embargo, el archivo de datos ha citado campos con comas incrustadas que no deben tratarse como comas. ¿Cómo puedo manejar ...

1 la respuesta

¿Cómo desactivar la notación científica en pyspark?

Como resultado de alguna agregación, se me ocurrió el siguiente cuadro de chispa: ------------+-----------------+-----------------+ |sale_user_id|gross_profit |total_sale_volume| +------------+-----------------+-----------------+ | ...

2 la respuesta

Spark SQL - Diferencia entre df.repartition y DataFrameWriter partitionBy?

¿Cuál es la diferencia entre DataFrame?repartition() y DataFrameWriterpartitionBy() métodos? Espero que ambos se utilicen para "particionar datos basados en la columna del marco de datos"? ¿O hay alguna diferencia?