Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

Aplicar la misma función a todos los campos de la fila de trama de datos de chispa

Tengo un marco de datos en el que tengo aproximadamente 1000 columnas (variables). Quiero hacer que todos los valores sean mayúsculas. Este es el enfoque en el que he pensado, ¿puede sugerir si esta es la mejor manera? Tomar filaEncuentre el ...

1 la respuesta

¿Cómo guardar un marco de datos de chispa como un archivo de texto sin filas en pyspark?

Tengo un marco de datos "df" con las columnas ['nombre', 'edad']. Guardé el marco de datos usandodf.rdd.saveAsTextFile("..") para guardarlo como un rdd. Cargué el archivo guardado y luego collect () me da el siguiente resultado. a = ...

0 la respuesta

Spark: no hay suficiente espacio para almacenar en rojo el contenedor mientras aún hay mucha memoria de almacenamiento total

Tengo un clúster de 30 nodos, cada nodo tiene 32 núcleos, 240 G de memoria (instancia de AWS cr1.8xlarge). Tengo las siguientes configuraciones: --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors ...

0 la respuesta

Error de trabajo de chispa: YarnAllocator: estado de salida: -100. Diagnóstico: Contenedor lanzado en un nodo * perdido *

Estoy ejecutando un trabajo en AWS-EMR 4.1, Spark 1.5 con la siguiente configuración: spark-submit --deploy-mode cluster --master yarn-cluster --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors ...

2 la respuesta

¿Por qué falla el compilador Scala con "no se puede acceder al objeto SparkConf en el paquete spark en el paquete org.apache.spark"?

No puedo acceder aSparkConf en el paquete. Pero ya importé elimport org.apache.spark.SparkConf. Mi código es: import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf import ...

1 la respuesta

Problemas de configuración de Google Cloud Dataproc

He estado encontrando varios problemas en algunos modelos de temas de Spark LDA (principalmente errores de disociación en intervalos aparentemente aleatorios) que he estado ejecutando, lo que creo que tiene que ver principalmente con ...

2 la respuesta

Operar en elementos vecinos en RDD en Spark

Como tengo una colección: List(1, 3,-1, 0, 2, -4, 6)Es fácil ordenarlo como: List(-4, -1, 0, 1, 2, 3, 6)Entonces puedo construir una nueva colección calculando 6 - 3, 3 - 2, 2 - 1, 1 - 0, y así sucesivamente: for(i <- 0 to list.length -2) ...

1 la respuesta

¿Por qué mi BroadcastHashJoin es más lento que ShuffledHashJoin en Spark?

Ejecuto una combinación usando unjavaHiveContext en chispa La gran mesa es de 1,76 Gb y tiene un récord de 100 millones. La segunda tabla es de 273Mb y tiene un récord de 10 millones. Yo tengo unJavaSchemaRDD y llamocount() en eso: String ...

3 la respuesta

Spark Word2vec matemáticas vectoriales

Estaba mirando elejemplo [http://spark.apache.org/docs/latest/mllib-feature-extraction.html#example]del sitio de Spark para Word2Vec: val input = sc.textFile("text8").map(line => line.split(" ").toSeq) val word2vec = new Word2Vec() val model = ...

2 la respuesta

Salida del trabajo de Dataproc Spark en Google Cloud Logging

¿Hay alguna manera de enviar el resultado de los trabajos de Dataproc Spark al registro de Google Cloud?Como se explica en los documentos de Dataproc [https://cloud.google.com/dataproc/driver-output]la salida del controlador de trabajo (el ...