Resultados de la búsqueda a petición "apache-spark"

Tengo un par de chispas RDD (clave, cuenta) como a continuación Array[(String, Int)] = Array((a,1), (b,2), (c,1), (d,3))¿Cómo encontrar la clave con el conteo más alto usando la API de spark scala? EDITAR: el tipo de datos del par RDD es ...

2 la respuesta

org.apache.spark.SparkException: trabajo cancelado debido a falla de etapa: tarea de la aplicación

Tengo un problema al ejecutar la aplicación de chispa en un clúster independiente. (Yo uso la versión spark 1.1.0). Ejecuté con éxito el servidor maestro por comando: bash start-master.shLuego ejecuto un trabajador por comando: bash spark-class ...

distributed-computing rdd

4 la respuesta

¿Cuál es la diferencia entre cache y persistir?

En términos deRDD persistencia, ¿cuáles son las diferencias entrecache() ypersist() en chispa?

scala dataframe apache-spark-sql user-defined-functions

1 la respuesta

Problemas al agregar una nueva columna a un marco de datos - spark / scala

Soy nuevo en spark / scala. Estoy tratando de leer algunos datos de una tabla de colmena en un marco de datos de chispa y luego agregar una columna basada en alguna condición. Aquí está mi código: val DF = hiveContext.sql("select * from (select ...

amazon-kinesis java

2 la respuesta

Apache Spark Kinesis Sample no funciona

Estoy tratando de ejecutar elJavaKinesisWordCountASL [https://github.com/apache/spark/blob/master/extras/kinesis-asl/src/main/java/org/apache/spark/examples/streaming/JavaKinesisWordCountASL.java] ejemplo. El ejemplo parece conectarse a mi ...

k-means apache-spark-mllib

1 la respuesta

Imprimir ClusterID y sus elementos usando Spark KMeans algo.

Tengo este programa que imprime el algoritmo MSSE of Kmeans en apache-spark. Hay 20 grupos generados. Estoy tratando de imprimir el clusterID y los elementos que se asignaron al respectivo clusterID. ¿Cómo hago un bucle sobre el clusterID para ...

scala apache-spark-sql

3 la respuesta

¿Cómo convertir un formato de fecha y hora personalizado a la marca de tiempo?

¿Alguna idea de por qué obtengo el resultado a continuación? scala> val b = to_timestamp($"DATETIME", "ddMMMYYYY:HH:mm:ss") b: org.apache.spark.sql.Column = to_timestamp(`DATETIME`, 'ddMMMYYYY:HH:mm:ss') scala> sourceRawData.withColumn("ts", ...

scala apache-spark-sql

1 la respuesta

Cómo soltar duplicados usando condiciones [duplicar]

Esta pregunta ya tiene una respuesta aquí: ¿Cómo seleccionar la primera fila de cada grupo? [/questions/33878370/how-to-select-the-first-row-of-each-group] 8 respuestas Tengo el siguiente DataFramedf: ¿Cómo puedo eliminar duplicados, ...

pyspark python mapreduce rdd

9 la respuesta

Reduzca un par clave-valor en un par clave-lista con Apache Spark

Estoy escribiendo una aplicación Spark y quiero combinar un conjunto de pares clave-valor(K, V1), (K, V2), ..., (K, Vn) en un par clave-valor múltiple(K, [V1, V2, ..., Vn]). Siento que debería poder hacer esto usando elreduceByKey funcionar con ...

csv python

1 la respuesta

Filtrar RDD según el número de fila

sc.textFile (ruta) permite leer un archivo HDFS pero no acepta parámetros (como omitir varias filas, has_headers, ...). en el libro electrónico O'Reilly "Learning Spark", se sugiere utilizar la siguiente función para leer un CSV (Ejemplo 5-12. ...

Página 85 de 165

83 848586 87

Resultados de la búsqueda a petición "apache-spark"

¿Cómo encontrar el valor máximo en el par RDD?

org.apache.spark.SparkException: trabajo cancelado debido a falla de etapa: tarea de la aplicación

¿Cuál es la diferencia entre cache y persistir?

Etiquetas Populares

Problemas al agregar una nueva columna a un marco de datos - spark / scala

Apache Spark Kinesis Sample no funciona

Imprimir ClusterID y sus elementos usando Spark KMeans algo.

¿Cómo convertir un formato de fecha y hora personalizado a la marca de tiempo?

Cómo soltar duplicados usando condiciones [duplicar]

Reduzca un par clave-valor en un par clave-lista con Apache Spark

Filtrar RDD según el número de fila

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares