Resultados de la búsqueda a petición "apache-spark-sql"

4 la respuesta

Analizar CSV como DataFrame / DataSet con Apache Spark y Java

Soy nuevo en spark, y quiero usar group-by & reduce para encontrar lo siguiente de CSV (una línea por empleado): Department, Designation, costToCompany, State Sales, Trainee, 12000, UP Sales, Lead, 32000, AP Sales, Lead, 32000, LA Sales, Lead, ...

1 la respuesta

Advertencia de causa UDF: CachedKafkaConsumer no se está ejecutando en UninterruptibleThread (KAFKA-1894)

En un habitualstructure_kafka_wordcount.py [https://gist.github.com/hrchu/2b2590f2f737ef430ac32b7f8edc15c0]código, Cuando divido líneas en palabras porudf como abajo, my_split = udf(lambda x: x.split(' '), ArrayType(StringType())) words ...

2 la respuesta

Comportamiento unpersist del conjunto de datos de Spark

Recientemente vi un comportamiento extraño de Spark. Tengo una tubería en mi aplicación en la que estoy manipulando un gran conjunto de datos: pseudocódigo: val data = spark.read (...) data.join(df1, "key") //etc, more ...

1 la respuesta

Calcular eficientemente los totales de fila de un Spark DF ancho

Tengo un amplio marco de datos de chispa de unos pocos miles de columnas por aproximadamente un millón de filas, para lo cual me gustaría calcular los totales de las filas. Mi solución hasta ahora está por debajo. Solía:dplyr - suma de múltiples ...

1 la respuesta

Spark SQL no puede completar la escritura de datos de Parquet con una gran cantidad de fragmentos

Estoy tratando de usar Apache Spark SQL para etl json registrar datos en S3 en archivos Parquet también en S3. Mi código es básicamente: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data = sqlContext.jsonFile("s3n://...", ...

2 la respuesta

Spark Strutured Streaming convierte automáticamente la marca de tiempo a la hora local

Tengo mi marca de tiempo en UTC e ISO8601, pero usando Structured Streaming, se convierte automáticamente a la hora local. ¿Hay alguna manera de detener esta conversión? Me gustaría tenerlo en UTC. Estoy leyendo datos json de Kafka y luego los ...

3 la respuesta

Error al explotar una columna de estructura en Spark

Tengo un marco de datos cuyo esquema se ve así: event: struct (nullable = true) | | event_category: string (nullable = true) | | event_name: string (nullable = true) | | properties: struct (nullable = true) | | | ErrorCode: string (nullable = ...

1 la respuesta

Problemas al agregar una nueva columna a un marco de datos - spark / scala

Soy nuevo en spark / scala. Estoy tratando de leer algunos datos de una tabla de colmena en un marco de datos de chispa y luego agregar una columna basada en alguna condición. Aquí está mi código: val DF = hiveContext.sql("select * from (select ...

3 la respuesta

¿Cómo convertir un formato de fecha y hora personalizado a la marca de tiempo?

¿Alguna idea de por qué obtengo el resultado a continuación? scala> val b = to_timestamp($"DATETIME", "ddMMMYYYY:HH:mm:ss") b: org.apache.spark.sql.Column = to_timestamp(`DATETIME`, 'ddMMMYYYY:HH:mm:ss') scala> sourceRawData.withColumn("ts", ...

1 la respuesta

Cómo soltar duplicados usando condiciones [duplicar]

Esta pregunta ya tiene una respuesta aquí: ¿Cómo seleccionar la primera fila de cada grupo? [/questions/33878370/how-to-select-the-first-row-of-each-group] 8 respuestas Tengo el siguiente DataFramedf: ¿Cómo puedo eliminar duplicados, ...