Resultados de la búsqueda a petición "apache-spark"
¿Cómo llamar a estos métodos de objetos en un mapa?
Problema: Tengo que llamar a los métodos de Objetos que se almacenan en un mapa, para una clave dada, ¿cómo hacerlo? @Code: trait Processor00 { def process(x:String): Unit } case class Processor20() extends Processor0 { override def ...
Cómo solucionar este error "no encontrado: valor BMValsProcessor"
Cómo solucionar este error en este código trait Processor00 { def process(oraOptionDfConfig: DataFrameReader, sparkSession: SparkSession ): Unit } class BMValsProcessor extends Processor { def process(oraOptionDfConfig: DataFrameReader, ...
Particionar un gran conjunto de datos sesgados en S3 con el método de la partición de Spark
stoy tratando de escribir un gran conjunto de datos particionados en el disco con Spark y lapartitionByl algoritmo @ está luchando con los dos enfoques que he probado. Las particiones están muy sesgadas: algunas de las particiones son masivas ...
Convierta columnas de un marco de datos Spark con una matriz de objetos JSON en varias filas
Tengo una transmisión de datos JSON, cuya estructura se puede describir con la clase de caso a continuación case class Hello(A: String, B: Array[Map[String, String]]) Los datos de muestra para el mismo son los siguientes | A | B | ...
¿Cómo ejecutar 2 EMR Spark Step al mismo tiempo?
Estoy intentando que 2 pasos se ejecuten simultáneamente en EMR. Sin embargo, siempre obtengo el primer paso en ejecución y el segundo pendiente. a parte de mi configuración de hilo es la siguiente: { "Classification": "capacity-scheduler", ...
l error @pyspark no existe en el error jvm al inicializar SparkContext
Estoy usando spark over emr y escribiendo un script pyspark, recibo un error al intentar from pyspark import SparkContext sc = SparkContext()este es el error File "pyex.py", line 5, in <module> sc = SparkContext() ...
PySpark - Cómo transponer un Dataframe [duplicado]
Esta búsqueda, ya tiene una respuesta aquí: ¿Cómo pivotar DataFrame? [/questions/30244910/how-to-pivot-dataframe] 6 respuestas Quiero transponer un marco de datos. Este es solo un pequeño extracto de mi marco de datos original: from ...
Spark Scala promedio por filas manejando nulo
Tengo un marco de datos con un gran volumen de datos y "n" número de columnas. df_avg_calc: org.apache.spark.sql.DataFrame = [col1: double, col2: double ... 4 more ...
Filter array column content
Estoy usando pyspark 2.3.1 y me gustaría filtrar los elementos de la matriz con una expresión y no con udf: >>> df = spark.createDataFrame([(1, "A", [1,2,3,4]), (2, "B", [1,2,3,4,5])],["col1", "col2", "col3"]) >>> ...
Python trabajador no pudo conectarse de nuevo
Soy un novato con Spark e intento completar un tutorial de Spark:enlace al tutorial [https://www.youtube.com/watch?v=3CPI2D_QD44&index=4&list=PLot-YkcC7wZ_2sxmRTZr2c121rjcaleqv] Después de instalarlo en la máquina local (Win10 64, Python 3, ...