Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

Dataframe to Dataset que tiene el tipo Any

Recientemente me mudé de Spark 1.6 a Spark 2.X y también me gustaría pasar, cuando sea posible, de Dataframes a Datasets. Probé un código como este case class MyClass(a : Any, ...) val df = ... df.map(x => MyClass(x.get(0), ...))Como puedes ...

3 la respuesta

¿Cómo convertir la marca de tiempo al formato de fecha en DataFrame?

tengo unDataFrame conTimestamp columna, que necesito convertir comoDate formato. ¿Hay alguna función Spark SQL disponible para esto?

1 la respuesta

¿Por qué falla el uso de caché en conjuntos de datos de transmisión con "AnalysisException: las consultas con fuentes de transmisión deben ejecutarse con writeStream.start ()"?

SparkSession .builder .master("local[*]") .config("spark.sql.warehouse.dir", "C:/tmp/spark") .config("spark.sql.streaming.checkpointLocation", "C:/tmp/spark/spark-checkpoint") .appName("my-test") .getOrCreate .readStream .schema(schema) ...

1 la respuesta

Spark 2 Dataset Excepción de valor nulo

Obteniendo este error nulo en spark Dataset.filter Entrada CSV: name,age,stat abc,22,m xyz,,sCódigo de trabajo: case class Person(name: String, age: Long, stat: String) val peopleDS = spark.read.option("inferSchema","true") ...

1 la respuesta

Excepción de chispa al convertir una tabla MySQL a parquet

Estoy tratando de convertir una tabla remota de MySQL en un archivo de parquet usando spark 1.6.2. El proceso se ejecuta durante 10 minutos, llenando la memoria, que comienza con estos mensajes: WARN NettyRpcEndpointRef: Error sending message ...

2 la respuesta

Devuelve Seq [Row] desde Spark-Scala UDF

Estoy usando Spark con Scala para hacer un procesamiento de datos. Tengo datos XML asignados al marco de datos. Estoy pasando una fila como parámetro a la UDF e intento extraer dos objetos de tipos complejos como una lista. Spark me está dando el ...

1 la respuesta

Ejecución de Spark en clúster: el trabajo inicial no ha aceptado ningún recurso

Tengo un servidor Ubuntu remoto enlinode.com [http://linode.com]con 4 núcleos y 8G RAMTengo un clúster Spark-2 que consta de 1 maestro y 1 esclavo en mi servidor Ubuntu remoto.He iniciado PySpark Shell localmente en mi MacBook, conectado a mi ...

4 la respuesta

¿Cómo derretir Spark DataFrame?

¿Hay un equivalente de la función Pandas Melt en Apache Spark en PySpark o al menos en Scala? Estaba ejecutando un conjunto de datos de muestra hasta ahora en python y ahora quiero usar Spark para todo el conjunto de datos. Gracias por adelantado.

1 la respuesta

¿Cómo usar una colección de difusión en una udf?

Cómo usar una colección de difusión en Spark SQL 1.6.1 udf. Se debe llamar a Udf desde el SQL principal como se muestra a continuación sqlContext.sql("""Select col1,col2,udf_1(key) as value_from_udf FROM table_a""") udf_1() debería mirar a ...

1 la respuesta

Anteponer ceros a un valor en PySpark

Tengo un marco de datosdf : val1 val2 val3 271 70 151 213 1 379 213 3 90 213 6 288 20 55 165Quiero transformar este marco de datos como: val1 val2 val3 271 70 0151 213 01 0379 213 03 0090 213 06 0288 020 55 0165¿Cómo puedo hacer eso en pyspark? ...