Resultados de la búsqueda a petición "apache-spark"
Muestreo estratificado con pyspark
Tengo una chispaDataFrame que tiene una columna que tienemuchos cerosy muy pocas (solo el 0.01% de las unidades). Me gustaría tomar una submuestra aleatoria pero estratificada, para que mantenga la proporción de 1s a 0s en esa columna. ¿Es ...
Spark / scala crea un conjunto de datos vacío utilizando genéricos en un rasgo
Tengo un rasgo llamado que toma un parámetro de tipo, y uno de sus métodos debe ser capaz de crear un conjunto de datos con tipo vacío. trait MyTrait[T] { val sparkSession: SparkSession val spark = sparkSession.session val sparkContext = ...
Spark Dataframe - Función de ventana - Retraso y adelanto para salida de inserción y actualización
Necesito realizar la siguiente operación en marcos de datos usando la función de ventana Lag y Lead. Para cada clave, necesito realizar la inserción y actualización a continuación en la salida final Insertar condición: 1. Por defecto, LAYER_NO ...
Cómo agregar una columna anidada a un DataFrame
Tengo un marco de datosdf con el siguiente esquema: root |-- city_name: string (nullable = true) |-- person: struct (nullable = true) | |-- age: long (nullable = true) | |-- name: string (nullable = true)Lo que quiero hacer es agregar una ...
Agregación personalizada de Spark: collect_list + UDF vs UDAF
A menudo tengo la necesidad de realizar agregaciones personalizadas en marcos de datos en spark 2.1, y utilicé estos dos enfoques: usando groupby / collect_list para obtener todos los valores en una sola fila, luego aplique un UDF para agregar ...
¿Cómo puedo obtener el índice invertido?
Estoy usando Spark. ¿Cómo puedo obtener un índice invertido para el archivo csv usando Spark? Tengo un archivo csv df.show() +--------+--------------------+--------------------+----------+ | id| title| ...
¿Cómo obtener el número de elementos en la partición?
¿Hay alguna forma de obtener el número de elementos en una partición RDD de chispa, dada la ID de la partición? Sin escanear toda la partición. Algo como esto: Rdd.partitions().get(index).size()Excepto que no veo una API para la ...
Cómo ejecutar trabajos concurrentes (acciones) en Apache Spark usando un contexto de chispa única
Dice en la documentación de Apache Spark "dentro de cada aplicación de Spark, se pueden ejecutar múltiples "trabajos" (acciones de Spark) simultáneamente si fueron enviados por diferentes hilos". ¿Alguien puede explicar cómo lograr ...
obtener el número de nodos visibles en PySpark
Estoy ejecutando algunas operaciones en PySpark, y recientemente aumenté el número de nodos en mi configuración (que está en Amazon EMR). Sin embargo, aunque tripliqué el número de nodos (de 4 a 12), el rendimiento parece no haber cambiado. Como ...
usando pyspark, lee / escribe imágenes 2D en el sistema de archivos hadoop
Quiero poder leer / escribir imágenes en un sistema de archivos hdfs y aprovechar la localidad hdfs. Tengo una colección de imágenes donde cada imagen está compuesta de Matrices 2D de uint16información adicional básica almacenada como un ...