Resultados de la búsqueda a petición "pyspark"

1 la respuesta

Contar el número de filas duplicadas en SPARKSQL

Tengo un requisito donde necesito contar el número de filas duplicadas en SparkSQL para las tablas de Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import ...

2 la respuesta

Sobrescribir tablas MySQL con AWS Glue

Tengo un proceso lambda que ocasionalmente sondea una API para datos recientes. Estos datos tienen claves únicas, y me gustaría usar Glue para actualizar la tabla en MySQL. ¿Existe una opción para sobrescribir datos usando esta clave? (Similar al ...

2 la respuesta

Convierta la columna Pyspark Dataframe de la matriz a nuevas columnas

Tengo un Pyspark Dataframe con esta estructura: root |-- Id: string (nullable = true) |-- Q: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- pr: string (nullable = true) | | |-- qt: double (nullable = true)Algo ...

3 la respuesta

¿Cómo construir Spark 1.2 con Maven (da java.io.IOException: No se puede ejecutar el programa "javac")?

Estoy tratando de construir Spark 1.2 con Maven. Mi objetivo es usar PySpark con YARN en Hadoop 2.2. Vi que esto solo era posible construyendo Spark con Maven. Primero, ¿es esto cierto? Si es cierto, ¿cuál es el problema en el registro a ...

1 la respuesta

¿Función definida por el usuario que se aplicará a Window en PySpark?

Estoy tratando de aplicar una función definida por el usuario a Window en PySpark. He leído que UDAF podría ser el camino a seguir, pero no pude encontrar nada concreto. Para dar un ejemplo (tomado de aquí:Blog de tecnología de ...

2 la respuesta

Agregar una columna de recuento de grupos a un marco de datos PySpark

Vengo de R y eltidyverse [https://www.tidyverse.org/]a PySpark debido a su manejo superior de Spark, y estoy luchando por mapear ciertos conceptos de un contexto a otro. En particular, suponga que tengo un conjunto de datos como el siguiente x ...

1 la respuesta

Promedio móvil ponderado en Pyspark

Estoy escribiendo un algoritmo de detección de anomalías para series temporales en Pyspark. Quiero calcular un promedio móvil ponderado de una ventana (-3,3) o (-4,4). En este momento estoy usando las funciones de retraso y guía sobre la ventana ...

2 la respuesta

IllegalArgumentException con Spark collect () en Jupyter

Tengo una configuración con Jupyter 4.3.0, Python 3.6.3 (Anaconda) y PySpark 2.2.1. El siguiente ejemplo fallará cuando se ejecute a través de Jupyter: sc = SparkContext.getOrCreate() rdd = sc.parallelize(['A','B','C']) rdd.collect()A ...

1 la respuesta

Muestreo estratificado con pyspark

Tengo una chispaDataFrame que tiene una columna que tienemuchos cerosy muy pocas (solo el 0.01% de las unidades). Me gustaría tomar una submuestra aleatoria pero estratificada, para que mantenga la proporción de 1s a 0s en esa columna. ¿Es ...

1 la respuesta

Spark Dataframe - Función de ventana - Retraso y adelanto para salida de inserción y actualización

Necesito realizar la siguiente operación en marcos de datos usando la función de ventana Lag y Lead. Para cada clave, necesito realizar la inserción y actualización a continuación en la salida final Insertar condición: 1. Por defecto, LAYER_NO ...