Resultados de la búsqueda a petición "apache-spark"
Cuando se ejecuta con 'hilo' maestro, HADOOP_CONF_DIR o YARN_CONF_DIR deben configurarse en el entorno
Estoy tratando de ejecutar Spark usando hilo y me encuentro con este error: Excepción en el subproceso "main" java.lang.Exception: cuando se ejecuta con 'yarn' maestro, HADOOP_CONF_DIR o YARN_CONF_DIR deben establecerse en el entorno. No estoy ...
Apache Livy: consulta Spark SQL a través de REST: ¿posible?
La documentación de Apache Livy es escasa: ¿es posible devolver los conjuntos de resultados de la consulta Spark SQL como llamadas REST usando Apache Livy? La aplicación de llamada es móvil y no puede usar odbc / jdbc para conectarse. Entonces, ...
¿Cuál es la diferencia entre spark.sql.shuffle.partitions y spark.default.parallelism?
Cuál es la diferencia entrespark.sql.shuffle.partitions yspark.default.parallelism? He tratado de ponerlos a ambos enSparkSQL, pero el número de tarea de la segunda etapa es siempre 200.
Spark Dataframe: cómo agregar un índice Columna: Índice de datos distribuidos de Aka
Leí datos de un archivo csv, pero no tengo índice. Quiero agregar una columna del 1 al número de la fila. ¿Qué debo hacer, gracias (scala)
Seleccionar solo nombres de columnas numéricas / de cadena de un Spark DF en pyspark
Tengo un SparkDataFrame en pyspark (2.1.0) y estoy buscando obtener solo los nombres de columnas numéricas o columnas de cadena. Por ejemplo, este es el esquema de mi DF: root |-- Gender: string (nullable = true) |-- SeniorCitizen: string ...
Combinar lista de listas en pySpark RDD
Tengo listas de tuplas que quiero combinar en una lista. He podido procesar los datos usando lambdas y comprensión de listas donde estoy cerca de poder usar reduceByKey pero no estoy seguro de cómo fusionar las listas. Entonces el formato ...
¿Cómo filtrar registros duplicados que tienen múltiples claves en Spark Dataframe?
Tengo dos marcos de datos. Quiero eliminar algunos registros en Data Frame-A en función de algunos valores de columna comunes en Data Frame-B. Por ejemplo: Data Frame-A: A B C D 1 2 3 4 3 4 5 7 4 7 9 6 2 5 7 9 Marco de datos B: A B C D 1 2 3 7 ...
¿Por qué falla RDD.foreach con "SparkException: este RDD carece de SparkContext"?
Tengo un conjunto de datos (como unRDD) que divido en 4 RDD usando diferentesfilter operadores val RSet = datasetRdd. flatMap(x => RSetForAttr(x, alLevel, hieDict)). map(x => (x, 1)). reduceByKey((x, y) => x + y) val Rp:RDD[(String, Int)] = ...
Cómo lidiar con la entrada / salida de Spark UDF de tipo primitivo anulable
Los problemas: 1) Spark no llama a UDF si la entrada es una columna de tipo primitivo que contienenull: inputDF.show() +-----+ | x | +-----+ | null| | 1.0| +-----+ inputDF .withColumn("y", udf { (x: Double) => 2.0 }.apply($"x") // will not be ...
Acerca de cómo agregar una nueva columna a un DataFrame existente con valores aleatorios en Scala
Tengo un marco de datos con un archivo de parquet y tengo que agregar una nueva columna con algunos datos aleatorios, pero necesito que esos datos aleatorios sean diferentes entre sí. Este es mi código real y la versión actual de spark ...