Resultados de la búsqueda a petición "apache-spark"
Chispa: ¿aumentar el número de particiones sin causar una confusión?
Al disminuir el número de particiones se pueden usarcoalesce, lo cual es genial porque no causa una confusión y parece funcionar instantáneamente (no requiere una etapa de trabajo adicional). A veces me gustaría hacer lo contrario, ...
Spark: Cómo unir RDD por rango de tiempo
Tengo un delicado problema de Spark, donde simplemente no puedo entenderlo. Tenemos dos RDD (procedentes de Cassandra). RDD1 contieneActions y RDD2 contieneHistoric datos. Ambos tienen una identificación en la que se pueden combinar / unir. Pero ...
Cómo cargar un archivo local en sc.textFile, en lugar de HDFS
Estoy siguiendo lo genialtutorial de chispa [https://www.youtube.com/watch?v=VWeWViFCzzg] así que estoy intentando a los 46m: 00s cargar elREADME.md pero no lo que estoy haciendo es esto: $ sudo docker run -i -t -h sandbox ...
¿Cómo suprimir el registro de Spark en pruebas unitarias?
Así que gracias a los blogs fácilmente googleables que probé: import org.specs2.mutable.Specification class SparkEngineSpecs extends Specification { sequential def setLogLevels(level: Level, loggers: Seq[String]): Map[String, Level] = ...
¿Qué hace el argumento 'startTime' de la función pyspark.sql.functions.window y window.start?
El ejemplo es el siguiente: df=spark.createDataFrame([ (1,"2017-05-15 23:12:26",2.5), (1,"2017-05-09 15:26:58",3.5), (1,"2017-05-18 15:26:58",3.6), (2,"2017-05-15 15:24:25",4.8), (3,"2017-05-25 ...
apache spark MLLib: ¿cómo construir puntos etiquetados para características de cadena?
Estoy tratando de construir un clasificador NaiveBayes con MLLib de Spark que toma como entrada un conjunto de documentos. Me gustaría poner algunas cosas como características (es decir, autores, etiquetas explícitas, palabras clave implícitas, ...
Error de dependencia de Mllib
Estoy tratando de construir una aplicación autónoma scala muy simple usando Mllib, pero recibo el siguiente error cuando intento construir el programa: Object Mllib is not a member of package org.apache.sparkEntonces, me di cuenta de que tengo ...
¿Por qué falla Spark con java.lang.OutOfMemoryError: se ha excedido el límite superior de GC?
Estoy tratando de implementar un trabajo Hadoop Map / Reduce que funcionó bien antes en Spark. La definición de la aplicación Spark es la siguiente: val data = spark.textFile(file, 2).cache() val result = data .map(//some pre-processing) ...
collect () o toPandas () en un gran DataFrame en pyspark / EMR
Tengo un clúster EMR de una máquina "c3.8xlarge", después de leer varios recursos, entendí que tengo que permitir una cantidad decente de memoria fuera del montón porque estoy usando pyspark, así que configuré el clúster de la siguiente ...
Cómo procesar registros de entrada de varias líneas en Spark
Tengo cada registro extendido en varias líneas en el archivo de entrada (archivo muy grande). Ex: Id: 2 ASIN: 0738700123 title: Test tile for this product group: Book salesrank: 168501 similar: 5 0738700811 1567184912 1567182813 0738700514 ...