Resultados de la búsqueda a petición "apache-spark"
Realizar una unión escrita en Scala con conjuntos de datos de Spark
Me gustan los conjuntos de datos de Spark, ya que me dan errores de análisis y errores de sintaxis en el momento de la compilación y también me permiten trabajar con getters en lugar de nombres / números codificados. La mayoría de los cálculos se ...
Operador Spark SQL "<=>"
Recientemente me encontré con este operador: "<=>" en un proyecto de Scala Spark. Tengo problemas para encontrar documentación al respecto. ¿Alguien sabe cómo funciona, o sabe de alguna documentación? Creo que tiene algo que ver con las ...
Use más de una collect_list en una consulta en Spark SQL
Tengo el siguiente marco de datosdata: root |-- userId: string |-- product: string |-- rating: doubley la siguiente consulta: val result = sqlContext.sql("select userId, collect_list(product), collect_list(rating) from data group by userId")Mi ...
Cómo escribir en el almacén de PostgreSQL usando Spark Dataset
Estoy tratando de escribir un conjunto de datos de Spark en una tabla postgresql existente (no puedo cambiar los metadatos de la tabla como los tipos de columna). Una de las columnas de esta tabla es de ...
Aplicar una función a una sola columna de un csv en Spark
Usando Spark, estoy leyendo un csv y quiero aplicar una función a una columna en el csv. Tengo un código que funciona pero es muy hacky. ¿Cuál es la forma apropiada de hacer esto? Mi código SparkContext().addPyFile("myfile.py") spark = ...
¿Cómo agregar una columna al conjunto de datos sin convertir desde un DataFrame y acceder a él?
Conozco el método para agregar una nueva columna a un Spark DataSet usando.withColumn() y unUDF, que devuelve un DataFrame. También soy consciente de que podemos convertir el DataFrame resultante en un DataSet. Mis preguntas son: ¿Cómo entra en ...
Spark dataframe guardar en un solo archivo en la ubicación hdfs [duplicado]
Esta pregunta ya tiene una respuesta aquí: Cómo guardar datos RDD en archivos json, no en carpetas [/questions/40577546/how-to-save-rdd-data-into-json-files-not-folders] 2 respuestasTengo un marco de datos y quiero guardar en un solo archivo en ...
Núcleos de chispa y concurrencia de tareas
Tengo una pregunta muy básica sobre la chispa. Normalmente ejecuto trabajos de chispa con 50 núcleos. Mientras ve el progreso del trabajo, la mayoría de las veces muestra 50 procesos ejecutándose en paralelo (como se supone que debe hacer), pero ...
Lectura de archivos csv con campos entre comillas que contienen comas incrustadas
Estoy leyendo un archivo csv en Pyspark de la siguiente manera: df_raw=spark.read.option("header","true").csv(csv_path)Sin embargo, el archivo de datos ha citado campos con comas incrustadas que no deben tratarse como comas. ¿Cómo puedo manejar ...
¿Cómo desactivar la notación científica en pyspark?
Como resultado de alguna agregación, se me ocurrió el siguiente cuadro de chispa: ------------+-----------------+-----------------+ |sale_user_id|gross_profit |total_sale_volume| +------------+-----------------+-----------------+ | ...