Resultados de la búsqueda a petición "spark-dataframe"

2 la respuesta

¿Cómo reemplazar los valores vacíos en una columna de DataFrame?

¿Cómo puedo reemplazar los valores vacíos en una columnaField1 de DataFramedf? Field1 Field2 AA 12 BB Este comando no proporciona un resultado esperado: df.na.fill("Field1",Seq("Anonymous"))El resultado esperado: Field1 Field2 Anonymous AA 12 BB

2 la respuesta

Datasets en Apache Spark

Dataset<Tweet> ds = sc.read().json("path").as(Encoders.bean(Tweet.class)); ds.show(); JavaRDD<Tweet> dstry = ds.toJavaRDD(); System.out.println(dstry.first().getClass()); Caused ...

2 la respuesta

Cuál es la diferencia entre SparkSession y SparkContext? [duplicar

Esta pregunta ya tiene una respuesta aquí: Diferencia entre SparkContext, JavaSparkContext, SQLContext y SparkSession? [/questions/43802809/difference-between-sparkcontext-javasparkcontext-sqlcontext-and-sparksession] 3 respuestas Solo conozco ...

0 la respuesta

Aparece el error "No se pudo obtener una instancia de HMACSHA256" al acceder a Azure CosmosDB

Estoy tratando de escribir el marco de datos de Spark en Azure CosmosDB y he configurado toda la configuración correcta, pero obtengo el siguiente error al intentar escribir datos. My Build.sbt name := "MyApp" version := "1.0" scalaVersion := ...

2 la respuesta

Transformar una columna y actualizar el DataFrame

Entonces, lo que estoy haciendo a continuación es soltar una columnaA a partir de unaDataFrame porque quiero aplicar una transformación (aquí solojson.loads una cadena JSON) y reemplace la columna anterior con la transformada. Después de la ...

1 la respuesta

Cómo configurar la precisión de visualización en PySpark Dataframe show

¿Cómo se configura la precisión de visualización en PySpark cuando se llama.show()? Considere el siguiente ejemplo: from math import sqrt import pyspark.sql.functions as f data = zip( map(lambda x: sqrt(x), range(100, 105)), map(lambda x: ...

1 la respuesta

¿Por qué Apache-Spark - Python es tan lento localmente en comparación con los pandas?

Un novato chispa aquí. Recientemente comencé a jugar con la chispa en mi máquina local en dos núcleos usando el comando. pyspark - maestro local [2] Tengo un archivo de texto de 393 Mb que tiene casi un millón de filas. Quería realizar alguna ...

1 la respuesta

Contar el número de filas duplicadas en SPARKSQL

Tengo un requisito donde necesito contar el número de filas duplicadas en SparkSQL para las tablas de Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import ...

1 la respuesta

¿Cómo transformar DataFrame antes de unirse a la operación?

El siguiente código se usa para extraer rangos de la columnaproducts. Los rangos son segundos números en cada par[...]. Por ejemplo, en el ejemplo dado[[222,66],[333,55]] los rangos son66 y55 para productos con PK222 y333, en consecuencia. Pero ...

3 la respuesta

Error al explotar una columna de estructura en Spark

Tengo un marco de datos cuyo esquema se ve así: event: struct (nullable = true) | | event_category: string (nullable = true) | | event_name: string (nullable = true) | | properties: struct (nullable = true) | | | ErrorCode: string (nullable = ...