Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

Realizar una unión escrita en Scala con conjuntos de datos de Spark

Me gustan los conjuntos de datos de Spark, ya que me dan errores de análisis y errores de sintaxis en el momento de la compilación y también me permiten trabajar con getters en lugar de nombres / números codificados. La mayoría de los cálculos se ...

1 la respuesta

Operador Spark SQL "<=>"

Recientemente me encontré con este operador: "<=>" en un proyecto de Scala Spark. Tengo problemas para encontrar documentación al respecto. ¿Alguien sabe cómo funciona, o sabe de alguna documentación? Creo que tiene algo que ver con las ...

1 la respuesta

Use más de una collect_list en una consulta en Spark SQL

Tengo el siguiente marco de datosdata: root |-- userId: string |-- product: string |-- rating: doubley la siguiente consulta: val result = sqlContext.sql("select userId, collect_list(product), collect_list(rating) from data group by userId")Mi ...

2 la respuesta

Cómo escribir en el almacén de PostgreSQL usando Spark Dataset

Estoy tratando de escribir un conjunto de datos de Spark en una tabla postgresql existente (no puedo cambiar los metadatos de la tabla como los tipos de columna). Una de las columnas de esta tabla es de ...

1 la respuesta

Aplicar una función a una sola columna de un csv en Spark

Usando Spark, estoy leyendo un csv y quiero aplicar una función a una columna en el csv. Tengo un código que funciona pero es muy hacky. ¿Cuál es la forma apropiada de hacer esto? Mi código SparkContext().addPyFile("myfile.py") spark = ...

2 la respuesta

¿Cómo agregar una columna al conjunto de datos sin convertir desde un DataFrame y acceder a él?

Conozco el método para agregar una nueva columna a un Spark DataSet usando.withColumn() y unUDF, que devuelve un DataFrame. También soy consciente de que podemos convertir el DataFrame resultante en un DataSet. Mis preguntas son: ¿Cómo entra en ...

1 la respuesta

Spark dataframe guardar en un solo archivo en la ubicación hdfs [duplicado]

Esta pregunta ya tiene una respuesta aquí: Cómo guardar datos RDD en archivos json, no en carpetas [/questions/40577546/how-to-save-rdd-data-into-json-files-not-folders] 2 respuestasTengo un marco de datos y quiero guardar en un solo archivo en ...

1 la respuesta

Núcleos de chispa y concurrencia de tareas

Tengo una pregunta muy básica sobre la chispa. Normalmente ejecuto trabajos de chispa con 50 núcleos. Mientras ve el progreso del trabajo, la mayoría de las veces muestra 50 procesos ejecutándose en paralelo (como se supone que debe hacer), pero ...

3 la respuesta

Lectura de archivos csv con campos entre comillas que contienen comas incrustadas

Estoy leyendo un archivo csv en Pyspark de la siguiente manera: df_raw=spark.read.option("header","true").csv(csv_path)Sin embargo, el archivo de datos ha citado campos con comas incrustadas que no deben tratarse como comas. ¿Cómo puedo manejar ...

1 la respuesta

¿Cómo desactivar la notación científica en pyspark?

Como resultado de alguna agregación, se me ocurrió el siguiente cuadro de chispa: ------------+-----------------+-----------------+ |sale_user_id|gross_profit |total_sale_volume| +------------+-----------------+-----------------+ | ...