Resultados de la búsqueda a petición "apache-spark"

4 la respuesta

¿Cómo encontrar el valor máximo en el par RDD?

Tengo un par de chispas RDD (clave, cuenta) como a continuación Array[(String, Int)] = Array((a,1), (b,2), (c,1), (d,3))¿Cómo encontrar la clave con el conteo más alto usando la API de spark scala? EDITAR: el tipo de datos del par RDD es ...

2 la respuesta

org.apache.spark.SparkException: trabajo cancelado debido a falla de etapa: tarea de la aplicación

Tengo un problema al ejecutar la aplicación de chispa en un clúster independiente. (Yo uso la versión spark 1.1.0). Ejecuté con éxito el servidor maestro por comando: bash start-master.shLuego ejecuto un trabajador por comando: bash spark-class ...

4 la respuesta

¿Cuál es la diferencia entre cache y persistir?

En términos deRDD persistencia, ¿cuáles son las diferencias entrecache() ypersist() en chispa?

1 la respuesta

Problemas al agregar una nueva columna a un marco de datos - spark / scala

Soy nuevo en spark / scala. Estoy tratando de leer algunos datos de una tabla de colmena en un marco de datos de chispa y luego agregar una columna basada en alguna condición. Aquí está mi código: val DF = hiveContext.sql("select * from (select ...

2 la respuesta

Apache Spark Kinesis Sample no funciona

Estoy tratando de ejecutar elJavaKinesisWordCountASL [https://github.com/apache/spark/blob/master/extras/kinesis-asl/src/main/java/org/apache/spark/examples/streaming/JavaKinesisWordCountASL.java] ejemplo. El ejemplo parece conectarse a mi ...

1 la respuesta

Imprimir ClusterID y sus elementos usando Spark KMeans algo.

Tengo este programa que imprime el algoritmo MSSE of Kmeans en apache-spark. Hay 20 grupos generados. Estoy tratando de imprimir el clusterID y los elementos que se asignaron al respectivo clusterID. ¿Cómo hago un bucle sobre el clusterID para ...

3 la respuesta

¿Cómo convertir un formato de fecha y hora personalizado a la marca de tiempo?

¿Alguna idea de por qué obtengo el resultado a continuación? scala> val b = to_timestamp($"DATETIME", "ddMMMYYYY:HH:mm:ss") b: org.apache.spark.sql.Column = to_timestamp(`DATETIME`, 'ddMMMYYYY:HH:mm:ss') scala> sourceRawData.withColumn("ts", ...

1 la respuesta

Cómo soltar duplicados usando condiciones [duplicar]

Esta pregunta ya tiene una respuesta aquí: ¿Cómo seleccionar la primera fila de cada grupo? [/questions/33878370/how-to-select-the-first-row-of-each-group] 8 respuestas Tengo el siguiente DataFramedf: ¿Cómo puedo eliminar duplicados, ...

9 la respuesta

Reduzca un par clave-valor en un par clave-lista con Apache Spark

Estoy escribiendo una aplicación Spark y quiero combinar un conjunto de pares clave-valor(K, V1), (K, V2), ..., (K, Vn) en un par clave-valor múltiple(K, [V1, V2, ..., Vn]). Siento que debería poder hacer esto usando elreduceByKey funcionar con ...

1 la respuesta

Filtrar RDD según el número de fila

sc.textFile (ruta) permite leer un archivo HDFS pero no acepta parámetros (como omitir varias filas, has_headers, ...). en el libro electrónico O'Reilly "Learning Spark", se sugiere utilizar la siguiente función para leer un CSV (Ejemplo 5-12. ...