Resultados de la búsqueda a petición "apache-spark"
Apache Spark: establecer instancias de ejecutor no cambia los ejecutores
Tengo una aplicación Apache Spark ejecutándose en un clúster YARN (spark tiene 3 nodos en este clúster) en modo clúster. Cuando la aplicación se está ejecutando, Spark-UI muestra que 2 ejecutores (cada uno que se ejecuta en un nodo diferente) y ...
¿Cómo eliminar paréntesis alrededor de los registros cuando saveAsTextFile en RDD [(String, Int)]?
Estoy usandosaveAsTextFile(path) para guardar la salida como archivo de texto más tarde para importar el resultado a DB. El resultado se parece a esto: (value1, value2)¿Cómo eliminar los paréntesis?
¿Cómo calcular el inverso de un RowMatrix en Apache Spark?
Tengo una X, matriz distribuida, en forma RowMatrix. Estoy usando Spark 1.3.0. Necesito poder calcular X inversa.
¿Cómo asignar más ejecutores por trabajador en modo de clúster independiente?
Utilizo Spark 1.3.0 en un grupo de 5 nodos de trabajo con 36 núcleos y 58 GB de memoria cada uno. Me gustaría configurar el clúster independiente de Spark con muchos ejecutores por trabajador. He visto la fusiónSPARK-1706 ...
En Apache Spark, ¿por qué RDD.union no conserva el particionador?
Como todos saben, los particionadores en Spark tienen un gran impacto en el rendimiento en cualquier operación "amplia", por lo que generalmente se personaliza en las operaciones. Estaba experimentando con el siguiente código: val rdd1 = ...
Apache Hadoop Yarn - Subutilización de núcleos
No importa cuánto juegue con la configuración enyarn-site.xml es decir, usar todas las opciones a continuación yarn.scheduler.minimum-allocation-vcores yarn.nodemanager.resource.memory-mb yarn.nodemanager.resource.cpu-vcores ...
¿Cómo comparar cada elemento en el RDD con cualquier otro elemento en el RDD?
Estoy tratando de realizar una búsqueda de K vecino más cercano usando chispa. Tengo un RDD [Seq [Doble]] y estoy planeando devolver un RDD [(Seq [Doble], Seq [Seq [Doble]])] con la fila real y una lista de vecinos val out = data.map(row => { ...
Rastreo web distribuido con Apache Spark: ¿es posible?
Me hicieron una pregunta interesante cuando asistí a una entrevista sobre minería web. La pregunta era, ¿es posible rastrear los sitios web usando Apache Spark? Supuse que era posible, porque admite la capacidad de procesamiento distribuido de ...
¿Cómo convertir una marca de tiempo en cadena (sin cambiar la zona horaria)?
Tengo algunas veces unix que convierto en marcas de tiempo ensparklyr y por alguna razón también necesito convertirlos en cadenas. Desafortunadamente, parece que durante la conversión a cadenahive se convierte a EST (mi localidad). df_new <- ...
¿Cómo manejar la excepción en la función spark map ()?
Quiero ignorar la excepción en la función map (), por ejemplo: rdd.map(_.toInt)donde rdd es unRDD[String]. pero si se encuentra con una cadena que no sea un número, fallará. ¿Cuál es la forma más fácil de ignorar cualquier Excepción e ignorar ...