Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

¿Cómo llamar a estos métodos de objetos en un mapa?

Problema: Tengo que llamar a los métodos de Objetos que se almacenan en un mapa, para una clave dada, ¿cómo hacerlo? @Code: trait Processor00 { def process(x:String): Unit } case class Processor20() extends Processor0 { override def ...

1 la respuesta

Cómo solucionar este error "no encontrado: valor BMValsProcessor"

Cómo solucionar este error en este código trait Processor00 { def process(oraOptionDfConfig: DataFrameReader, sparkSession: SparkSession ): Unit } class BMValsProcessor extends Processor { def process(oraOptionDfConfig: DataFrameReader, ...

1 la respuesta

Particionar un gran conjunto de datos sesgados en S3 con el método de la partición de Spark

stoy tratando de escribir un gran conjunto de datos particionados en el disco con Spark y lapartitionByl algoritmo @ está luchando con los dos enfoques que he probado. Las particiones están muy sesgadas: algunas de las particiones son masivas ...

2 la respuesta

Convierta columnas de un marco de datos Spark con una matriz de objetos JSON en varias filas

Tengo una transmisión de datos JSON, cuya estructura se puede describir con la clase de caso a continuación case class Hello(A: String, B: Array[Map[String, String]]) Los datos de muestra para el mismo son los siguientes | A | B | ...

2 la respuesta

¿Cómo ejecutar 2 EMR Spark Step al mismo tiempo?

Estoy intentando que 2 pasos se ejecuten simultáneamente en EMR. Sin embargo, siempre obtengo el primer paso en ejecución y el segundo pendiente. a parte de mi configuración de hilo es la siguiente: { "Classification": "capacity-scheduler", ...

6 la respuesta

l error @pyspark no existe en el error jvm al inicializar SparkContext

Estoy usando spark over emr y escribiendo un script pyspark, recibo un error al intentar from pyspark import SparkContext sc = SparkContext()este es el error File "pyex.py", line 5, in <module> sc = SparkContext() ...

1 la respuesta

PySpark - Cómo transponer un Dataframe [duplicado]

Esta búsqueda, ya tiene una respuesta aquí: ¿Cómo pivotar DataFrame? [/questions/30244910/how-to-pivot-dataframe] 6 respuestas Quiero transponer un marco de datos. Este es solo un pequeño extracto de mi marco de datos original: from ...

2 la respuesta

Spark Scala promedio por filas manejando nulo

Tengo un marco de datos con un gran volumen de datos y "n" número de columnas. df_avg_calc: org.apache.spark.sql.DataFrame = [col1: double, col2: double ... 4 more ...

1 la respuesta

Filter array column content

Estoy usando pyspark 2.3.1 y me gustaría filtrar los elementos de la matriz con una expresión y no con udf: >>> df = spark.createDataFrame([(1, "A", [1,2,3,4]), (2, "B", [1,2,3,4,5])],["col1", "col2", "col3"]) >>> ...

2 la respuesta

Python trabajador no pudo conectarse de nuevo

Soy un novato con Spark e intento completar un tutorial de Spark:enlace al tutorial [https://www.youtube.com/watch?v=3CPI2D_QD44&index=4&list=PLot-YkcC7wZ_2sxmRTZr2c121rjcaleqv] Después de instalarlo en la máquina local (Win10 64, Python 3, ...