Resultados de la búsqueda a petición "apache-spark"

He estado enfrentando un problema con "Spark Streaming" sobre la inserción de la salida Dstream en unpermanente Tabla SQL. Me gustaría insertar cada salida DStream (proveniente de un solo lote que genera procesos) en una tabla única. He estado ...

python yarn pyspark hadoop

1 la respuesta

¿Cómo funciona Spark en YARN para el uso de memoria Python?

Después de leer la documentación, no entiendo cómo funciona Spark en YARN para el consumo de memoria de Python. ¿Cuenta paraspark.executor.memory, spark.executor.memoryOverhead ¿o donde? En particular, tengo una aplicación PySpark ...

1 la respuesta

¿Dataframe.show () es una acción en chispa?

Tengo el siguiente código: val df_in = sqlcontext.read.json(jsonFile) // the file resides in hdfs //some operations in here to create df as df_in with two more columns "terms1" and "terms2" val intersectUDF = udf( (seq1:Seq[String], ...

spark-streaming fasterxml maven-2 apache-zeppelin

2 la respuesta

com.fasterxml.jackson.databind.JsonMappingException: la versión de Jackson es demasiado antigua 2.5.3

Mi sistema operativo es OS X 10.11.6. Estoy ejecutando Spark 2.0, Zeppelin 0.6, Scala 2.11 Cuando ejecuto este código en Zeppelin, recibo una excepción de Jackson. Cuando ejecuto este código en spark-shell, no hay excepción. val filestream = ...

tinkerpop cassandra titan tinkerpop3

1 la respuesta

Instalación y configuración de Titan para un grupo de Spark y Cassandra

Ya hay varias preguntas en la lista de correo de aurelius y aquí en stackoverflow sobre problemas específicos con la configuración de Titan para que funcione con Spark. Pero lo que falta en mi opinión es una descripción de alto nivel de una ...

bigdata python distributed-computing algorithm

1 la respuesta

Preparar mis bigdata con Spark a través de Python

Mis 100 m de tamaño, datos cuantificados: (1424411938', [3885, 7898]) (3333333333', [3885, 7898])Resultado deseado: (3885, [3333333333, 1424411938]) (7898, [3333333333, 1424411938])Entonces, lo que quiero es transformar los datos para agrupar ...

spark-dataframe apache-spark-sql parquet

1 la respuesta

¿La consulta contra un Spark DataFrame basado en CSV es más rápida que una basada en Parquet?

Tengo que cargar un archivo CSV de HDFS usando Spark enDataFrame. Me preguntaba si hay una mejora en el "rendimiento" (velocidad de consulta) de un DataFrame respaldado por un archivo CSV frente a uno respaldado por un archivo de parquet. Por lo ...

cartesian-product python

1 la respuesta

Producto cartesiano de chispa

Tengo que comparar coordenadas para obtener la distancia. Por lo tanto, cargo los datos con sc.textFile () y hago un producto cartesiano. Hay alrededor de 2.000.000 de líneas en el archivo de texto, por lo tanto, 2.000.000 x 2.000.000 de ...

spark-cassandra-connector

3 la respuesta

Qué sucede: NoSuchMethodError: com.datastax.driver.core.ResultSet.fetchMoreResults

cassandra-connector-assembly-2.0.0 construido a partir degithub proyecto. conScala 2.11.8, cassandra-driver-core-3.1.0 sc.cassandraTable("mykeyspace", "mytable").select("something").where("key=?", key).mapPartitions(par => { par.map({ row => ...

scala spark-streaming apache-kafka rdd

1 la respuesta

Excepción al acceder a KafkaOffset desde RDD

Tengo un consumidor de Spark que se transmite desde Kafka. Estoy tratando de gestionar las compensaciones para la semántica de una sola vez. Sin embargo, al acceder al desplazamiento, arroja la siguiente ...

Página 21 de 165

19 202122 23

Resultados de la búsqueda a petición "apache-spark"

Cómo guardar / insertar cada DStream en una tabla permanente

¿Cómo funciona Spark en YARN para el uso de memoria Python?

¿Dataframe.show () es una acción en chispa?

Etiquetas Populares

com.fasterxml.jackson.databind.JsonMappingException: la versión de Jackson es demasiado antigua 2.5.3

Instalación y configuración de Titan para un grupo de Spark y Cassandra

Preparar mis bigdata con Spark a través de Python

¿La consulta contra un Spark DataFrame basado en CSV es más rápida que una basada en Parquet?

Producto cartesiano de chispa

Qué sucede: NoSuchMethodError: com.datastax.driver.core.ResultSet.fetchMoreResults

Excepción al acceder a KafkaOffset desde RDD

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares