Resultados de la búsqueda a petición "apache-spark"

3 la respuesta

Chispa: ¿aumentar el número de particiones sin causar una confusión?

Al disminuir el número de particiones se pueden usarcoalesce, lo cual es genial porque no causa una confusión y parece funcionar instantáneamente (no requiere una etapa de trabajo adicional). A veces me gustaría hacer lo contrario, ...

3 la respuesta

Spark: Cómo unir RDD por rango de tiempo

Tengo un delicado problema de Spark, donde simplemente no puedo entenderlo. Tenemos dos RDD (procedentes de Cassandra). RDD1 contieneActions y RDD2 contieneHistoric datos. Ambos tienen una identificación en la que se pueden combinar / unir. Pero ...

9 la respuesta

Cómo cargar un archivo local en sc.textFile, en lugar de HDFS

Estoy siguiendo lo genialtutorial de chispa [https://www.youtube.com/watch?v=VWeWViFCzzg] así que estoy intentando a los 46m: 00s cargar elREADME.md pero no lo que estoy haciendo es esto: $ sudo docker run -i -t -h sandbox ...

5 la respuesta

¿Cómo suprimir el registro de Spark en pruebas unitarias?

Así que gracias a los blogs fácilmente googleables que probé: import org.specs2.mutable.Specification class SparkEngineSpecs extends Specification { sequential def setLogLevels(level: Level, loggers: Seq[String]): Map[String, Level] = ...

1 la respuesta

¿Qué hace el argumento 'startTime' de la función pyspark.sql.functions.window y window.start?

El ejemplo es el siguiente: df=spark.createDataFrame([ (1,"2017-05-15 23:12:26",2.5), (1,"2017-05-09 15:26:58",3.5), (1,"2017-05-18 15:26:58",3.6), (2,"2017-05-15 15:24:25",4.8), (3,"2017-05-25 ...

1 la respuesta

apache spark MLLib: ¿cómo construir puntos etiquetados para características de cadena?

Estoy tratando de construir un clasificador NaiveBayes con MLLib de Spark que toma como entrada un conjunto de documentos. Me gustaría poner algunas cosas como características (es decir, autores, etiquetas explícitas, palabras clave implícitas, ...

2 la respuesta

Error de dependencia de Mllib

Estoy tratando de construir una aplicación autónoma scala muy simple usando Mllib, pero recibo el siguiente error cuando intento construir el programa: Object Mllib is not a member of package org.apache.sparkEntonces, me di cuenta de que tengo ...

5 la respuesta

¿Por qué falla Spark con java.lang.OutOfMemoryError: se ha excedido el límite superior de GC?

Estoy tratando de implementar un trabajo Hadoop Map / Reduce que funcionó bien antes en Spark. La definición de la aplicación Spark es la siguiente: val data = spark.textFile(file, 2).cache() val result = data .map(//some pre-processing) ...

1 la respuesta

collect () o toPandas () en un gran DataFrame en pyspark / EMR

Tengo un clúster EMR de una máquina "c3.8xlarge", después de leer varios recursos, entendí que tengo que permitir una cantidad decente de memoria fuera del montón porque estoy usando pyspark, así que configuré el clúster de la siguiente ...

2 la respuesta

Cómo procesar registros de entrada de varias líneas en Spark

Tengo cada registro extendido en varias líneas en el archivo de entrada (archivo muy grande). Ex: Id: 2 ASIN: 0738700123 title: Test tile for this product group: Book salesrank: 168501 similar: 5 0738700811 1567184912 1567182813 0738700514 ...