Resultados de la búsqueda a petición "spark-dataframe"

1 la respuesta

Spark 2.2 Scala DataFrame selecciona del conjunto de cadenas, detectando errores

Soy nuevo en SparkSQL / Scala y estoy luchando con un par de tareas aparentemente simples. Estoy tratando de construir un SQL dinámico a partir de una matriz de cadenas Scala. Estoy tratando de volver a escribir algunas columnas en mi ...

1 la respuesta

¿Por qué Apache-Spark - Python es tan lento localmente en comparación con los pandas?

Un novato chispa aquí. Recientemente comencé a jugar con la chispa en mi máquina local en dos núcleos usando el comando. pyspark - maestro local [2] Tengo un archivo de texto de 393 Mb que tiene casi un millón de filas. Quería realizar alguna ...

1 la respuesta

Cómo configurar la precisión de visualización en PySpark Dataframe show

¿Cómo se configura la precisión de visualización en PySpark cuando se llama.show()? Considere el siguiente ejemplo: from math import sqrt import pyspark.sql.functions as f data = zip( map(lambda x: sqrt(x), range(100, 105)), map(lambda x: ...

1 la respuesta

¿Cómo transformar DataFrame antes de unirse a la operación?

El siguiente código se usa para extraer rangos de la columnaproducts. Los rangos son segundos números en cada par[...]. Por ejemplo, en el ejemplo dado[[222,66],[333,55]] los rangos son66 y55 para productos con PK222 y333, en consecuencia. Pero ...

3 la respuesta

Error al explotar una columna de estructura en Spark

Tengo un marco de datos cuyo esquema se ve así: event: struct (nullable = true) | | event_category: string (nullable = true) | | event_name: string (nullable = true) | | properties: struct (nullable = true) | | | ErrorCode: string (nullable = ...

1 la respuesta

Contar el número de filas duplicadas en SPARKSQL

Tengo un requisito donde necesito contar el número de filas duplicadas en SparkSQL para las tablas de Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import ...

1 la respuesta

Spark Dataframe - Función de ventana - Retraso y adelanto para salida de inserción y actualización

Necesito realizar la siguiente operación en marcos de datos usando la función de ventana Lag y Lead. Para cada clave, necesito realizar la inserción y actualización a continuación en la salida final Insertar condición: 1. Por defecto, LAYER_NO ...

4 la respuesta

Actualización de una columna de marco de datos en chispa

Mirando la nueva API de marco de datos de chispa, no está claro si es posible modificar las columnas del marco de datos. ¿Cómo haría para cambiar un valor en fila?x columnay de un marco de datos? Enpandas esto seríadf.ix[x,y] = ...

0 la respuesta

Aparece el error "No se pudo obtener una instancia de HMACSHA256" al acceder a Azure CosmosDB

Estoy tratando de escribir el marco de datos de Spark en Azure CosmosDB y he configurado toda la configuración correcta, pero obtengo el siguiente error al intentar escribir datos. My Build.sbt name := "MyApp" version := "1.0" scalaVersion := ...

5 la respuesta

Guarde el marco de datos de Spark como una tabla particionada dinámica en Hive

Tengo una aplicación de muestra que trabaja para leer archivos csv en un marco de datos. El marco de datos se puede almacenar en una tabla Hive en formato de parquet utilizando el métododf.saveAsTable(tablename,mode). El código anterior funciona ...