Resultados de la búsqueda a petición "apache-spark-sql"
Spark fusionar / combinar matrices en grupo Por / agregado
El siguiente código de Spark muestra correctamente lo que quiero hacer y genera la salida correcta con un pequeño conjunto de datos de demostración. Cuando ejecuto este mismo tipo general de código en un gran volumen de datos de producción, ...
¿Por qué las columnas cambian a nulables en Apache Spark SQL?
Por que esnullable = true se usa después de ejecutar algunas funciones, aunque no haya valores NaN enDataFrame. val myDf = Seq((2,"A"),(2,"B"),(1,"C")) .toDF("foo","bar") .withColumn("foo", 'foo.cast("Int")) myDf.withColumn("foo_2", when($"foo" ...
Cómo obtener claves y valores de la columna MapType en SparkSQL DataFrame
Tengo datos en un archivo de parquet que tiene 2 campos:object_id: String yalpha: Map<>. Se lee en un marco de datos en sparkSQL y el esquema se ve así: scala> alphaDF.printSchema() root |-- object_id: string (nullable = true) |-- ALPHA: map ...
Pyspark: función de ventana personalizada
Actualmente estoy tratando de extraer series de ocurrencias consecutivas en un marco de datos PySpark y ordenarlas / clasificarlas como se muestra a continuación (por conveniencia, he ordenado el marco de datos inicial ...
Use más de una collect_list en una consulta en Spark SQL
Tengo el siguiente marco de datosdata: root |-- userId: string |-- product: string |-- rating: doubley la siguiente consulta: val result = sqlContext.sql("select userId, collect_list(product), collect_list(rating) from data group by userId")Mi ...
Realizar una unión escrita en Scala con conjuntos de datos de Spark
Me gustan los conjuntos de datos de Spark, ya que me dan errores de análisis y errores de sintaxis en el momento de la compilación y también me permiten trabajar con getters en lugar de nombres / números codificados. La mayoría de los cálculos se ...
Operador Spark SQL "<=>"
Recientemente me encontré con este operador: "<=>" en un proyecto de Scala Spark. Tengo problemas para encontrar documentación al respecto. ¿Alguien sabe cómo funciona, o sabe de alguna documentación? Creo que tiene algo que ver con las ...
Lectura de archivos csv con campos entre comillas que contienen comas incrustadas
Estoy leyendo un archivo csv en Pyspark de la siguiente manera: df_raw=spark.read.option("header","true").csv(csv_path)Sin embargo, el archivo de datos ha citado campos con comas incrustadas que no deben tratarse como comas. ¿Cómo puedo manejar ...
¿Cómo desactivar la notación científica en pyspark?
Como resultado de alguna agregación, se me ocurrió el siguiente cuadro de chispa: ------------+-----------------+-----------------+ |sale_user_id|gross_profit |total_sale_volume| +------------+-----------------+-----------------+ | ...
Spark SQL - Diferencia entre df.repartition y DataFrameWriter partitionBy?
¿Cuál es la diferencia entre DataFrame?repartition() y DataFrameWriterpartitionBy() métodos? Espero que ambos se utilicen para "particionar datos basados en la columna del marco de datos"? ¿O hay alguna diferencia?