Resultados de la búsqueda a petición "spark-dataframe"
Spark 2.2 Scala DataFrame selecciona del conjunto de cadenas, detectando errores
Soy nuevo en SparkSQL / Scala y estoy luchando con un par de tareas aparentemente simples. Estoy tratando de construir un SQL dinámico a partir de una matriz de cadenas Scala. Estoy tratando de volver a escribir algunas columnas en mi ...
¿Por qué Apache-Spark - Python es tan lento localmente en comparación con los pandas?
Un novato chispa aquí. Recientemente comencé a jugar con la chispa en mi máquina local en dos núcleos usando el comando. pyspark - maestro local [2] Tengo un archivo de texto de 393 Mb que tiene casi un millón de filas. Quería realizar alguna ...
Cómo configurar la precisión de visualización en PySpark Dataframe show
¿Cómo se configura la precisión de visualización en PySpark cuando se llama.show()? Considere el siguiente ejemplo: from math import sqrt import pyspark.sql.functions as f data = zip( map(lambda x: sqrt(x), range(100, 105)), map(lambda x: ...
¿Cómo transformar DataFrame antes de unirse a la operación?
El siguiente código se usa para extraer rangos de la columnaproducts. Los rangos son segundos números en cada par[...]. Por ejemplo, en el ejemplo dado[[222,66],[333,55]] los rangos son66 y55 para productos con PK222 y333, en consecuencia. Pero ...
Error al explotar una columna de estructura en Spark
Tengo un marco de datos cuyo esquema se ve así: event: struct (nullable = true) | | event_category: string (nullable = true) | | event_name: string (nullable = true) | | properties: struct (nullable = true) | | | ErrorCode: string (nullable = ...
Contar el número de filas duplicadas en SPARKSQL
Tengo un requisito donde necesito contar el número de filas duplicadas en SparkSQL para las tablas de Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import ...
Spark Dataframe - Función de ventana - Retraso y adelanto para salida de inserción y actualización
Necesito realizar la siguiente operación en marcos de datos usando la función de ventana Lag y Lead. Para cada clave, necesito realizar la inserción y actualización a continuación en la salida final Insertar condición: 1. Por defecto, LAYER_NO ...
Actualización de una columna de marco de datos en chispa
Mirando la nueva API de marco de datos de chispa, no está claro si es posible modificar las columnas del marco de datos. ¿Cómo haría para cambiar un valor en fila?x columnay de un marco de datos? Enpandas esto seríadf.ix[x,y] = ...
Aparece el error "No se pudo obtener una instancia de HMACSHA256" al acceder a Azure CosmosDB
Estoy tratando de escribir el marco de datos de Spark en Azure CosmosDB y he configurado toda la configuración correcta, pero obtengo el siguiente error al intentar escribir datos. My Build.sbt name := "MyApp" version := "1.0" scalaVersion := ...
Guarde el marco de datos de Spark como una tabla particionada dinámica en Hive
Tengo una aplicación de muestra que trabaja para leer archivos csv en un marco de datos. El marco de datos se puede almacenar en una tabla Hive en formato de parquet utilizando el métododf.saveAsTable(tablename,mode). El código anterior funciona ...