Resultados de la búsqueda a petición "apache-spark-sql"

Soy nuevo en spark, y quiero usar group-by & reduce para encontrar lo siguiente de CSV (una línea por empleado): Department, Designation, costToCompany, State Sales, Trainee, 12000, UP Sales, Lead, 32000, AP Sales, Lead, 32000, LA Sales, Lead, ...

apache-spark pyspark apache-kafka spark-streaming

1 la respuesta

Advertencia de causa UDF: CachedKafkaConsumer no se está ejecutando en UninterruptibleThread (KAFKA-1894)

En un habitualstructure_kafka_wordcount.py [https://gist.github.com/hrchu/2b2590f2f737ef430ac32b7f8edc15c0]código, Cuando divido líneas en palabras porudf como abajo, my_split = udf(lambda x: x.split(' '), ArrayType(StringType())) words ...

apache-spark

2 la respuesta

Comportamiento unpersist del conjunto de datos de Spark

Recientemente vi un comportamiento extraño de Spark. Tengo una tubería en mi aplicación en la que estoy manipulando un gran conjunto de datos: pseudocódigo: val data = spark.read (...) data.join(df1, "key") //etc, more ...

r apache-spark dplyr sparklyr

1 la respuesta

Calcular eficientemente los totales de fila de un Spark DF ancho

Tengo un amplio marco de datos de chispa de unos pocos miles de columnas por aproximadamente un millón de filas, para lo cual me gustaría calcular los totales de las filas. Mi solución hasta ahora está por debajo. Solía:dplyr - suma de múltiples ...

hadoop apache-spark amazon-s3 parquet

1 la respuesta

Spark SQL no puede completar la escritura de datos de Parquet con una gran cantidad de fragmentos

Estoy tratando de usar Apache Spark SQL para etl json registrar datos en S3 en archivos Parquet también en S3. Mi código es básicamente: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data = sqlContext.jsonFile("s3n://...", ...

java scala apache-spark spark-streaming

2 la respuesta

Spark Strutured Streaming convierte automáticamente la marca de tiempo a la hora local

Tengo mi marca de tiempo en UTC e ISO8601, pero usando Structured Streaming, se convierte automáticamente a la hora local. ¿Hay alguna manera de detener esta conversión? Me gustaría tenerlo en UTC. Estoy leyendo datos json de Kafka y luego los ...

scala apache-spark pyspark spark-dataframe

3 la respuesta

Error al explotar una columna de estructura en Spark

Tengo un marco de datos cuyo esquema se ve así: event: struct (nullable = true) | | event_category: string (nullable = true) | | event_name: string (nullable = true) | | properties: struct (nullable = true) | | | ErrorCode: string (nullable = ...

scala apache-spark dataframe user-defined-functions

1 la respuesta

Problemas al agregar una nueva columna a un marco de datos - spark / scala

Soy nuevo en spark / scala. Estoy tratando de leer algunos datos de una tabla de colmena en un marco de datos de chispa y luego agregar una columna basada en alguna condición. Aquí está mi código: val DF = hiveContext.sql("select * from (select ...

scala apache-spark

3 la respuesta

¿Cómo convertir un formato de fecha y hora personalizado a la marca de tiempo?

¿Alguna idea de por qué obtengo el resultado a continuación? scala> val b = to_timestamp($"DATETIME", "ddMMMYYYY:HH:mm:ss") b: org.apache.spark.sql.Column = to_timestamp(`DATETIME`, 'ddMMMYYYY:HH:mm:ss') scala> sourceRawData.withColumn("ts", ...

scala apache-spark

1 la respuesta

Cómo soltar duplicados usando condiciones [duplicar]

Esta pregunta ya tiene una respuesta aquí: ¿Cómo seleccionar la primera fila de cada grupo? [/questions/33878370/how-to-select-the-first-row-of-each-group] 8 respuestas Tengo el siguiente DataFramedf: ¿Cómo puedo eliminar duplicados, ...

Página 28 de 52

26 272829 30

Resultados de la búsqueda a petición "apache-spark-sql"

Analizar CSV como DataFrame / DataSet con Apache Spark y Java

Advertencia de causa UDF: CachedKafkaConsumer no se está ejecutando en UninterruptibleThread (KAFKA-1894)

Comportamiento unpersist del conjunto de datos de Spark

Etiquetas Populares

Calcular eficientemente los totales de fila de un Spark DF ancho

Spark SQL no puede completar la escritura de datos de Parquet con una gran cantidad de fragmentos

Spark Strutured Streaming convierte automáticamente la marca de tiempo a la hora local

Error al explotar una columna de estructura en Spark

Problemas al agregar una nueva columna a un marco de datos - spark / scala

¿Cómo convertir un formato de fecha y hora personalizado a la marca de tiempo?

Cómo soltar duplicados usando condiciones [duplicar]

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark-sql"

Etiquetas Populares