Resultados de la búsqueda a petición "spark-dataframe"
¿Cómo reemplazar los valores vacíos en una columna de DataFrame?
¿Cómo puedo reemplazar los valores vacíos en una columnaField1 de DataFramedf? Field1 Field2 AA 12 BB Este comando no proporciona un resultado esperado: df.na.fill("Field1",Seq("Anonymous"))El resultado esperado: Field1 Field2 Anonymous AA 12 BB
Datasets en Apache Spark
Dataset<Tweet> ds = sc.read().json("path").as(Encoders.bean(Tweet.class)); ds.show(); JavaRDD<Tweet> dstry = ds.toJavaRDD(); System.out.println(dstry.first().getClass()); Caused ...
Cuál es la diferencia entre SparkSession y SparkContext? [duplicar
Esta pregunta ya tiene una respuesta aquí: Diferencia entre SparkContext, JavaSparkContext, SQLContext y SparkSession? [/questions/43802809/difference-between-sparkcontext-javasparkcontext-sqlcontext-and-sparksession] 3 respuestas Solo conozco ...
Aparece el error "No se pudo obtener una instancia de HMACSHA256" al acceder a Azure CosmosDB
Estoy tratando de escribir el marco de datos de Spark en Azure CosmosDB y he configurado toda la configuración correcta, pero obtengo el siguiente error al intentar escribir datos. My Build.sbt name := "MyApp" version := "1.0" scalaVersion := ...
Transformar una columna y actualizar el DataFrame
Entonces, lo que estoy haciendo a continuación es soltar una columnaA a partir de unaDataFrame porque quiero aplicar una transformación (aquí solojson.loads una cadena JSON) y reemplace la columna anterior con la transformada. Después de la ...
Cómo configurar la precisión de visualización en PySpark Dataframe show
¿Cómo se configura la precisión de visualización en PySpark cuando se llama.show()? Considere el siguiente ejemplo: from math import sqrt import pyspark.sql.functions as f data = zip( map(lambda x: sqrt(x), range(100, 105)), map(lambda x: ...
¿Por qué Apache-Spark - Python es tan lento localmente en comparación con los pandas?
Un novato chispa aquí. Recientemente comencé a jugar con la chispa en mi máquina local en dos núcleos usando el comando. pyspark - maestro local [2] Tengo un archivo de texto de 393 Mb que tiene casi un millón de filas. Quería realizar alguna ...
Contar el número de filas duplicadas en SPARKSQL
Tengo un requisito donde necesito contar el número de filas duplicadas en SparkSQL para las tablas de Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import ...
¿Cómo transformar DataFrame antes de unirse a la operación?
El siguiente código se usa para extraer rangos de la columnaproducts. Los rangos son segundos números en cada par[...]. Por ejemplo, en el ejemplo dado[[222,66],[333,55]] los rangos son66 y55 para productos con PK222 y333, en consecuencia. Pero ...
Error al explotar una columna de estructura en Spark
Tengo un marco de datos cuyo esquema se ve así: event: struct (nullable = true) | | event_category: string (nullable = true) | | event_name: string (nullable = true) | | properties: struct (nullable = true) | | | ErrorCode: string (nullable = ...