Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

Cuando se ejecuta con 'hilo' maestro, HADOOP_CONF_DIR o YARN_CONF_DIR deben configurarse en el entorno

Estoy tratando de ejecutar Spark usando hilo y me encuentro con este error: Excepción en el subproceso "main" java.lang.Exception: cuando se ejecuta con 'yarn' maestro, HADOOP_CONF_DIR o YARN_CONF_DIR deben establecerse en el entorno. No estoy ...

1 la respuesta

Apache Livy: consulta Spark SQL a través de REST: ¿posible?

La documentación de Apache Livy es escasa: ¿es posible devolver los conjuntos de resultados de la consulta Spark SQL como llamadas REST usando Apache Livy? La aplicación de llamada es móvil y no puede usar odbc / jdbc para conectarse. Entonces, ...

2 la respuesta

¿Cuál es la diferencia entre spark.sql.shuffle.partitions y spark.default.parallelism?

Cuál es la diferencia entrespark.sql.shuffle.partitions yspark.default.parallelism? He tratado de ponerlos a ambos enSparkSQL, pero el número de tarea de la segunda etapa es siempre 200.

4 la respuesta

Spark Dataframe: cómo agregar un índice Columna: Índice de datos distribuidos de Aka

Leí datos de un archivo csv, pero no tengo índice. Quiero agregar una columna del 1 al número de la fila. ¿Qué debo hacer, gracias (scala)

1 la respuesta

Seleccionar solo nombres de columnas numéricas / de cadena de un Spark DF en pyspark

Tengo un SparkDataFrame en pyspark (2.1.0) y estoy buscando obtener solo los nombres de columnas numéricas o columnas de cadena. Por ejemplo, este es el esquema de mi DF: root |-- Gender: string (nullable = true) |-- SeniorCitizen: string ...

2 la respuesta

Combinar lista de listas en pySpark RDD

Tengo listas de tuplas que quiero combinar en una lista. He podido procesar los datos usando lambdas y comprensión de listas donde estoy cerca de poder usar reduceByKey pero no estoy seguro de cómo fusionar las listas. Entonces el formato ...

1 la respuesta

¿Cómo filtrar registros duplicados que tienen múltiples claves en Spark Dataframe?

Tengo dos marcos de datos. Quiero eliminar algunos registros en Data Frame-A en función de algunos valores de columna comunes en Data Frame-B. Por ejemplo: Data Frame-A: A B C D 1 2 3 4 3 4 5 7 4 7 9 6 2 5 7 9 Marco de datos B: A B C D 1 2 3 7 ...

1 la respuesta

¿Por qué falla RDD.foreach con "SparkException: este RDD carece de SparkContext"?

Tengo un conjunto de datos (como unRDD) que divido en 4 RDD usando diferentesfilter operadores val RSet = datasetRdd. flatMap(x => RSetForAttr(x, alLevel, hieDict)). map(x => (x, 1)). reduceByKey((x, y) => x + y) val Rp:RDD[(String, Int)] = ...

3 la respuesta

Cómo lidiar con la entrada / salida de Spark UDF de tipo primitivo anulable

Los problemas: 1) Spark no llama a UDF si la entrada es una columna de tipo primitivo que contienenull: inputDF.show() +-----+ | x | +-----+ | null| | 1.0| +-----+ inputDF .withColumn("y", udf { (x: Double) => 2.0 }.apply($"x") // will not be ...

2 la respuesta

Acerca de cómo agregar una nueva columna a un DataFrame existente con valores aleatorios en Scala

Tengo un marco de datos con un archivo de parquet y tengo que agregar una nueva columna con algunos datos aleatorios, pero necesito que esos datos aleatorios sean diferentes entre sí. Este es mi código real y la versión actual de spark ...