Resultados de la búsqueda a petición "apache-spark"

Tengo un marco de datos en el que tengo aproximadamente 1000 columnas (variables). Quiero hacer que todos los valores sean mayúsculas. Este es el enfoque en el que he pensado, ¿puede sugerir si esta es la mejor manera? Tomar filaEncuentre el ...

python pyspark

1 la respuesta

¿Cómo guardar un marco de datos de chispa como un archivo de texto sin filas en pyspark?

Tengo un marco de datos "df" con las columnas ['nombre', 'edad']. Guardé el marco de datos usandodf.rdd.saveAsTextFile("..") para guardarlo como un rdd. Cargué el archivo guardado y luego collect () me da el siguiente resultado. a = ...

rdd storage memory

0 la respuesta

Spark: no hay suficiente espacio para almacenar en rojo el contenedor mientras aún hay mucha memoria de almacenamiento total

Tengo un clúster de 30 nodos, cada nodo tiene 32 núcleos, 240 G de memoria (instancia de AWS cr1.8xlarge). Tengo las siguientes configuraciones: --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors ...

yarn amazon-web-services emr

0 la respuesta

Error de trabajo de chispa: YarnAllocator: estado de salida: -100. Diagnóstico: Contenedor lanzado en un nodo * perdido *

Estoy ejecutando un trabajo en AWS-EMR 4.1, Spark 1.5 con la siguiente configuración: spark-submit --deploy-mode cluster --master yarn-cluster --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors ...

sbt scala

2 la respuesta

¿Por qué falla el compilador Scala con "no se puede acceder al objeto SparkConf en el paquete spark en el paquete org.apache.spark"?

No puedo acceder aSparkConf en el paquete. Pero ya importé elimport org.apache.spark.SparkConf. Mi código es: import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf import ...

google-cloud-platform lda google-cloud-dataproc

1 la respuesta

Problemas de configuración de Google Cloud Dataproc

He estado encontrando varios problemas en algunos modelos de temas de Spark LDA (principalmente errores de disociación en intervalos aparentemente aleatorios) que he estado ejecutando, lo que creo que tiene que ver principalmente con ...

scala

2 la respuesta

Operar en elementos vecinos en RDD en Spark

Como tengo una colección: List(1, 3,-1, 0, 2, -4, 6)Es fácil ordenarlo como: List(-4, -1, 0, 1, 2, 3, 6)Entonces puedo construir una nueva colección calculando 6 - 3, 3 - 2, 2 - 1, 1 - 0, y así sucesivamente: for(i <- 0 to list.length -2) ...

hadoop hive

1 la respuesta

¿Por qué mi BroadcastHashJoin es más lento que ShuffledHashJoin en Spark?

Ejecuto una combinación usando unjavaHiveContext en chispa La gran mesa es de 1,76 Gb y tiene un récord de 100 millones. La segunda tabla es de 273Mb y tiene un récord de 10 millones. Yo tengo unJavaSchemaRDD y llamocount() en eso: String ...

apache-spark-mllib machine-learning word2vec

3 la respuesta

Spark Word2vec matemáticas vectoriales

Estaba mirando elejemplo [http://spark.apache.org/docs/latest/mllib-feature-extraction.html#example]del sitio de Spark para Word2Vec: val input = sc.textFile("text8").map(line => line.split(" ").toSeq) val word2vec = new Word2Vec() val model = ...

google-cloud-logging google-cloud-dataproc

2 la respuesta

Salida del trabajo de Dataproc Spark en Google Cloud Logging

¿Hay alguna manera de enviar el resultado de los trabajos de Dataproc Spark al registro de Google Cloud?Como se explica en los documentos de Dataproc [https://cloud.google.com/dataproc/driver-output]la salida del controlador de trabajo (el ...

Página 137 de 165

135 136137138 139

Resultados de la búsqueda a petición "apache-spark"

Aplicar la misma función a todos los campos de la fila de trama de datos de chispa

¿Cómo guardar un marco de datos de chispa como un archivo de texto sin filas en pyspark?

Spark: no hay suficiente espacio para almacenar en rojo el contenedor mientras aún hay mucha memoria de almacenamiento total

Etiquetas Populares

Error de trabajo de chispa: YarnAllocator: estado de salida: -100. Diagnóstico: Contenedor lanzado en un nodo * perdido *

¿Por qué falla el compilador Scala con "no se puede acceder al objeto SparkConf en el paquete spark en el paquete org.apache.spark"?

Problemas de configuración de Google Cloud Dataproc

Operar en elementos vecinos en RDD en Spark

¿Por qué mi BroadcastHashJoin es más lento que ShuffledHashJoin en Spark?

Spark Word2vec matemáticas vectoriales

Salida del trabajo de Dataproc Spark en Google Cloud Logging

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares