Resultados de la búsqueda a petición "apache-spark"
Aplicar la misma función a todos los campos de la fila de trama de datos de chispa
Tengo un marco de datos en el que tengo aproximadamente 1000 columnas (variables). Quiero hacer que todos los valores sean mayúsculas. Este es el enfoque en el que he pensado, ¿puede sugerir si esta es la mejor manera? Tomar filaEncuentre el ...
¿Cómo guardar un marco de datos de chispa como un archivo de texto sin filas en pyspark?
Tengo un marco de datos "df" con las columnas ['nombre', 'edad']. Guardé el marco de datos usandodf.rdd.saveAsTextFile("..") para guardarlo como un rdd. Cargué el archivo guardado y luego collect () me da el siguiente resultado. a = ...
Spark: no hay suficiente espacio para almacenar en rojo el contenedor mientras aún hay mucha memoria de almacenamiento total
Tengo un clúster de 30 nodos, cada nodo tiene 32 núcleos, 240 G de memoria (instancia de AWS cr1.8xlarge). Tengo las siguientes configuraciones: --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors ...
Error de trabajo de chispa: YarnAllocator: estado de salida: -100. Diagnóstico: Contenedor lanzado en un nodo * perdido *
Estoy ejecutando un trabajo en AWS-EMR 4.1, Spark 1.5 con la siguiente configuración: spark-submit --deploy-mode cluster --master yarn-cluster --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors ...
¿Por qué falla el compilador Scala con "no se puede acceder al objeto SparkConf en el paquete spark en el paquete org.apache.spark"?
No puedo acceder aSparkConf en el paquete. Pero ya importé elimport org.apache.spark.SparkConf. Mi código es: import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf import ...
Problemas de configuración de Google Cloud Dataproc
He estado encontrando varios problemas en algunos modelos de temas de Spark LDA (principalmente errores de disociación en intervalos aparentemente aleatorios) que he estado ejecutando, lo que creo que tiene que ver principalmente con ...
Operar en elementos vecinos en RDD en Spark
Como tengo una colección: List(1, 3,-1, 0, 2, -4, 6)Es fácil ordenarlo como: List(-4, -1, 0, 1, 2, 3, 6)Entonces puedo construir una nueva colección calculando 6 - 3, 3 - 2, 2 - 1, 1 - 0, y así sucesivamente: for(i <- 0 to list.length -2) ...
¿Por qué mi BroadcastHashJoin es más lento que ShuffledHashJoin en Spark?
Ejecuto una combinación usando unjavaHiveContext en chispa La gran mesa es de 1,76 Gb y tiene un récord de 100 millones. La segunda tabla es de 273Mb y tiene un récord de 10 millones. Yo tengo unJavaSchemaRDD y llamocount() en eso: String ...
Spark Word2vec matemáticas vectoriales
Estaba mirando elejemplo [http://spark.apache.org/docs/latest/mllib-feature-extraction.html#example]del sitio de Spark para Word2Vec: val input = sc.textFile("text8").map(line => line.split(" ").toSeq) val word2vec = new Word2Vec() val model = ...
Salida del trabajo de Dataproc Spark en Google Cloud Logging
¿Hay alguna manera de enviar el resultado de los trabajos de Dataproc Spark al registro de Google Cloud?Como se explica en los documentos de Dataproc [https://cloud.google.com/dataproc/driver-output]la salida del controlador de trabajo (el ...