Resultados de la búsqueda a petición "apache-spark"

Tengo una chispaDataFrame que tiene una columna que tienemuchos cerosy muy pocas (solo el 0.01% de las unidades). Me gustaría tomar una submuestra aleatoria pero estratificada, para que mantenga la proporción de 1s a 0s en esa columna. ¿Es ...

scala scala-reflect

1 la respuesta

Spark / scala crea un conjunto de datos vacío utilizando genéricos en un rasgo

Tengo un rasgo llamado que toma un parámetro de tipo, y uno de sus métodos debe ser capaz de crear un conjunto de datos con tipo vacío. trait MyTrait[T] { val sparkSession: SparkSession val spark = sparkSession.session val sparkContext = ...

scala pyspark apache-spark-sql spark-dataframe

1 la respuesta

Spark Dataframe - Función de ventana - Retraso y adelanto para salida de inserción y actualización

Necesito realizar la siguiente operación en marcos de datos usando la función de ventana Lag y Lead. Para cada clave, necesito realizar la inserción y actualización a continuación en la salida final Insertar condición: 1. Por defecto, LAYER_NO ...

scala apache-spark-sql

1 la respuesta

Cómo agregar una columna anidada a un DataFrame

Tengo un marco de datosdf con el siguiente esquema: root |-- city_name: string (nullable = true) |-- person: struct (nullable = true) | |-- age: long (nullable = true) | |-- name: string (nullable = true)Lo que quiero hacer es agregar una ...

dataframe aggregate-functions user-defined-functions

0 la respuesta

Agregación personalizada de Spark: collect_list + UDF vs UDAF

A menudo tengo la necesidad de realizar agregaciones personalizadas en marcos de datos en spark 2.1, y utilicé estos dos enfoques: usando groupby / collect_list para obtener todos los valores en una sola fila, luego aplique un UDF para agregar ...

pyspark

1 la respuesta

¿Cómo puedo obtener el índice invertido?

Estoy usando Spark. ¿Cómo puedo obtener un índice invertido para el archivo csv usando Spark? Tengo un archivo csv df.show() +--------+--------------------+--------------------+----------+ | id| title| ...

partitioning

3 la respuesta

¿Cómo obtener el número de elementos en la partición?

¿Hay alguna forma de obtener el número de elementos en una partición RDD de chispa, dada la ID de la partición? Sin escanear toda la partición. Algo como esto: Rdd.partitions().get(index).size()Excepto que no veo una API para la ...

concurrency java

1 la respuesta

Cómo ejecutar trabajos concurrentes (acciones) en Apache Spark usando un contexto de chispa única

Dice en la documentación de Apache Spark "dentro de cada aplicación de Spark, se pueden ejecutar múltiples "trabajos" (acciones de Spark) simultáneamente si fueron enviados por diferentes hilos". ¿Alguien puede explicar cómo lograr ...

pyspark python-2.7

5 la respuesta

obtener el número de nodos visibles en PySpark

Estoy ejecutando algunas operaciones en PySpark, y recientemente aumenté el número de nodos en mi configuración (que está en Amazon EMR). Sin embargo, aunque tripliqué el número de nodos (de 4 a 12), el rendimiento parece no haber cambiado. Como ...

pyspark sequencefile hadoop

1 la respuesta

usando pyspark, lee / escribe imágenes 2D en el sistema de archivos hadoop

Quiero poder leer / escribir imágenes en un sistema de archivos hdfs y aprovechar la localidad hdfs. Tengo una colección de imágenes donde cada imagen está compuesta de Matrices 2D de uint16información adicional básica almacenada como un ...

Página 92 de 165

90 919293 94

Resultados de la búsqueda a petición "apache-spark"

Muestreo estratificado con pyspark

Spark / scala crea un conjunto de datos vacío utilizando genéricos en un rasgo

Spark Dataframe - Función de ventana - Retraso y adelanto para salida de inserción y actualización

Etiquetas Populares

Cómo agregar una columna anidada a un DataFrame

Agregación personalizada de Spark: collect_list + UDF vs UDAF

¿Cómo puedo obtener el índice invertido?

¿Cómo obtener el número de elementos en la partición?

Cómo ejecutar trabajos concurrentes (acciones) en Apache Spark usando un contexto de chispa única

obtener el número de nodos visibles en PySpark

usando pyspark, lee / escribe imágenes 2D en el sistema de archivos hadoop

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares