Resultados de la búsqueda a petición "apache-spark"
Cómo guardar / insertar cada DStream en una tabla permanente
He estado enfrentando un problema con "Spark Streaming" sobre la inserción de la salida Dstream en unpermanente Tabla SQL. Me gustaría insertar cada salida DStream (proveniente de un solo lote que genera procesos) en una tabla única. He estado ...
¿Cómo funciona Spark en YARN para el uso de memoria Python?
Después de leer la documentación, no entiendo cómo funciona Spark en YARN para el consumo de memoria de Python. ¿Cuenta paraspark.executor.memory, spark.executor.memoryOverhead ¿o donde? En particular, tengo una aplicación PySpark ...
¿Dataframe.show () es una acción en chispa?
Tengo el siguiente código: val df_in = sqlcontext.read.json(jsonFile) // the file resides in hdfs //some operations in here to create df as df_in with two more columns "terms1" and "terms2" val intersectUDF = udf( (seq1:Seq[String], ...
com.fasterxml.jackson.databind.JsonMappingException: la versión de Jackson es demasiado antigua 2.5.3
Mi sistema operativo es OS X 10.11.6. Estoy ejecutando Spark 2.0, Zeppelin 0.6, Scala 2.11 Cuando ejecuto este código en Zeppelin, recibo una excepción de Jackson. Cuando ejecuto este código en spark-shell, no hay excepción. val filestream = ...
Instalación y configuración de Titan para un grupo de Spark y Cassandra
Ya hay varias preguntas en la lista de correo de aurelius y aquí en stackoverflow sobre problemas específicos con la configuración de Titan para que funcione con Spark. Pero lo que falta en mi opinión es una descripción de alto nivel de una ...
Preparar mis bigdata con Spark a través de Python
Mis 100 m de tamaño, datos cuantificados: (1424411938', [3885, 7898]) (3333333333', [3885, 7898])Resultado deseado: (3885, [3333333333, 1424411938]) (7898, [3333333333, 1424411938])Entonces, lo que quiero es transformar los datos para agrupar ...
¿La consulta contra un Spark DataFrame basado en CSV es más rápida que una basada en Parquet?
Tengo que cargar un archivo CSV de HDFS usando Spark enDataFrame. Me preguntaba si hay una mejora en el "rendimiento" (velocidad de consulta) de un DataFrame respaldado por un archivo CSV frente a uno respaldado por un archivo de parquet. Por lo ...
Producto cartesiano de chispa
Tengo que comparar coordenadas para obtener la distancia. Por lo tanto, cargo los datos con sc.textFile () y hago un producto cartesiano. Hay alrededor de 2.000.000 de líneas en el archivo de texto, por lo tanto, 2.000.000 x 2.000.000 de ...
Qué sucede: NoSuchMethodError: com.datastax.driver.core.ResultSet.fetchMoreResults
cassandra-connector-assembly-2.0.0 construido a partir degithub proyecto. conScala 2.11.8, cassandra-driver-core-3.1.0 sc.cassandraTable("mykeyspace", "mytable").select("something").where("key=?", key).mapPartitions(par => { par.map({ row => ...
Excepción al acceder a KafkaOffset desde RDD
Tengo un consumidor de Spark que se transmite desde Kafka. Estoy tratando de gestionar las compensaciones para la semántica de una sola vez. Sin embargo, al acceder al desplazamiento, arroja la siguiente ...