Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

Muestreo estratificado con pyspark

Tengo una chispaDataFrame que tiene una columna que tienemuchos cerosy muy pocas (solo el 0.01% de las unidades). Me gustaría tomar una submuestra aleatoria pero estratificada, para que mantenga la proporción de 1s a 0s en esa columna. ¿Es ...

1 la respuesta

Spark / scala crea un conjunto de datos vacío utilizando genéricos en un rasgo

Tengo un rasgo llamado que toma un parámetro de tipo, y uno de sus métodos debe ser capaz de crear un conjunto de datos con tipo vacío. trait MyTrait[T] { val sparkSession: SparkSession val spark = sparkSession.session val sparkContext = ...

1 la respuesta

Spark Dataframe - Función de ventana - Retraso y adelanto para salida de inserción y actualización

Necesito realizar la siguiente operación en marcos de datos usando la función de ventana Lag y Lead. Para cada clave, necesito realizar la inserción y actualización a continuación en la salida final Insertar condición: 1. Por defecto, LAYER_NO ...

1 la respuesta

Cómo agregar una columna anidada a un DataFrame

Tengo un marco de datosdf con el siguiente esquema: root |-- city_name: string (nullable = true) |-- person: struct (nullable = true) | |-- age: long (nullable = true) | |-- name: string (nullable = true)Lo que quiero hacer es agregar una ...

0 la respuesta

Agregación personalizada de Spark: collect_list + UDF vs UDAF

A menudo tengo la necesidad de realizar agregaciones personalizadas en marcos de datos en spark 2.1, y utilicé estos dos enfoques: usando groupby / collect_list para obtener todos los valores en una sola fila, luego aplique un UDF para agregar ...

1 la respuesta

¿Cómo puedo obtener el índice invertido?

Estoy usando Spark. ¿Cómo puedo obtener un índice invertido para el archivo csv usando Spark? Tengo un archivo csv df.show() +--------+--------------------+--------------------+----------+ | id| title| ...

3 la respuesta

¿Cómo obtener el número de elementos en la partición?

¿Hay alguna forma de obtener el número de elementos en una partición RDD de chispa, dada la ID de la partición? Sin escanear toda la partición. Algo como esto: Rdd.partitions().get(index).size()Excepto que no veo una API para la ...

1 la respuesta

Cómo ejecutar trabajos concurrentes (acciones) en Apache Spark usando un contexto de chispa única

Dice en la documentación de Apache Spark "dentro de cada aplicación de Spark, se pueden ejecutar múltiples "trabajos" (acciones de Spark) simultáneamente si fueron enviados por diferentes hilos". ¿Alguien puede explicar cómo lograr ...

5 la respuesta

obtener el número de nodos visibles en PySpark

Estoy ejecutando algunas operaciones en PySpark, y recientemente aumenté el número de nodos en mi configuración (que está en Amazon EMR). Sin embargo, aunque tripliqué el número de nodos (de 4 a 12), el rendimiento parece no haber cambiado. Como ...

1 la respuesta

usando pyspark, lee / escribe imágenes 2D en el sistema de archivos hadoop

Quiero poder leer / escribir imágenes en un sistema de archivos hdfs y aprovechar la localidad hdfs. Tengo una colección de imágenes donde cada imagen está compuesta de Matrices 2D de uint16información adicional básica almacenada como un ...