Resultados de la búsqueda a petición "apache-spark"

3 la respuesta

Cómo establecer valores de configuración de hadoop desde pyspark

La versión Scala de SparkContext tiene la propiedad sc.hadoopConfigurationLo he usado con éxito para configurar las propiedades de Hadoop (en Scala) p.ej. sc.hadoopConfiguration.set("my.mapreduce.setting","someVal")Sin embargo, la versión de ...

11 la respuesta

Cargar archivo CSV con Spark

Soy nuevo en Spark e intento leer datos CSV de un archivo con Spark. Esto es lo que estoy haciendo: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect()Esperaría que esta llamada me dé una lista de ...

3 la respuesta

lanzamiento de chispa: encontrar versión

Mi entorno es Windows 7 y está instalado scala 2.11.4 (funciona bien), Java 1.8 He probado spark-1.2.0-bin-hadoop2.4 y spark-1.2.1-bin-hadoop2.4 y cada vez que pongo bin\spark-shell.cmdAcabo de recibir el error de Windows: find: 'version': No ...

1 la respuesta

¿Cómo aumentar los factores de la matriz en Spark ALS recomienda?

Soy un principiante en el mundo del aprendizaje automático y el uso de Apache Spark. He seguido el tutorial ...

1 la respuesta

Error de ejecución de Spark java.lang.NoClassDefFoundError: org / codehaus / jackson / annotate / JsonClass

import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf import play.api.libs.json._ import java.util.Date import javax.xml.bind.DatatypeConverter object Test { def main(args:Array[String]): Unit = { val logFile="test.txt" val ...

2 la respuesta

¿Por qué foreach no aporta nada al programa del controlador?

Escribí este programa en spark shell val array = sc.parallelize(List(1, 2, 3, 4)) array.foreach(x => println(x))Esto imprime algunas declaraciones de depuración pero no los números reales. El siguiente código funciona bien for(num <- ...

3 la respuesta

Spark usando python: cómo resolver Stage x contiene una tarea de gran tamaño (xxx KB). El tamaño máximo recomendado de la tarea es de 100 KB.

Acabo de crear una lista de Python derange(1,100000). Utilizando SparkContext se realizaron los siguientes pasos: a = sc.parallelize([i for i in range(1, 100000)]) b = sc.parallelize([i for i in range(1, 100000)]) c = a.zip(b) >>> [(1, 1), (2, ...

1 la respuesta

Convierte entre Streaming Dataset y DStream

¿Es posible convertir una transmisión?o.a.s.sql.Dataset aDStream? ¿Si es así, cómo? Sé cómo convertirlo a RDD, pero está en un contexto de transmisión.

2 la respuesta

¿Por qué la aplicación de chispa falla con "executeor.CoarseGrainedExecutorBackend: Driver Disassociated"?

Cuando ejecuto query sql a través de spark-submit y spark-sql, la aplicación de spark correspondiente siempre falla con el siguiente error: 15/03/10 18:50:52 INFO util.AkkaUtils: Connecting to ...

1 la respuesta

¿Cuál es la diferencia entre un sistema "con estado" y "sin estado"?

Apache Spark [https://people.csail.mit.edu/matei/papers/2013/sosp_spark_streaming.pdf]se jacta de que sus operadores (nodos) están "sin estado". Esto permite que la arquitectura de Spark utilice protocolos más simples para cosas ...