Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

¿Cómo genero filas dependiendo del valor de la columna en spark?

suppose Si tengo una sola columna con una fila +---+ | id| +---+ | 4| +---+then ¿cómo genero filas dependiendo del valor de una columna +---+ | id| +---+ | 1 | |---| | 2 | |---| | 3 | |---| | 4 | +---+

1 la respuesta

Manipulación de fila para Dataframe en chispa [duplicado]

Esta pregunta ya tiene una respuesta aquí: Cómo mapear un Dataframe anidado en Spark [/questions/36784735/how-to-flatmap-a-nested-dataframe-in-spark] 1 respuesta Tengo un marco de datos en chispa que es como: column_A | column_B --------- ...

3 la respuesta

Procesamiento de columnas eficiente en PySpark

Tengo un marco de datos con una gran cantidad de columnas (> 30000). Lo estoy llenando con1 y0 basado en la primera columna como esta: for column in list_of_column_names: df = df.withColumn(column, when(array_contains(df['list_column'], ...

0 la respuesta

Spark Agregación de transmisión estructurada para datos de marcas de tiempo antiguas

ntento agregar el recuento de registros cada 10 segundos utilizando la transmisión estructurada para los siguientes datos entrantes de Kafk { "ts2" : "2018/05/01 00:02:50.041", "serviceGroupId" : "123", "userId" : "avv-0", "stream" : "", ...

2 la respuesta

pasando el valor de RDD a otro RDD como variable - Spark #Pyspark [duplicado]

Esta pregunta ya tiene una respuesta aquí: ¿Cómo obtener un valor del objeto Row en Spark Dataframe? [/questions/37999657/how-to-get-a-value-from-the-row-object-in-spark-dataframe] 3 respuestas Actualmente estoy explorando cómo llamar a grandes ...

1 la respuesta

maxCategories no funciona como se esperaba en VectorIndexer cuando se usa RandomForestClassifier en pyspark.ml

Fondo: estoy haciendo una clasificación binaria simple, usando RandomForestClassifier de pyspark.ml. Antes de alimentar los datos al entrenamiento, logré usar VectorIndexer para decidir si las características serían numéricas o categóricas al ...

1 la respuesta

Cómo mantener el orden de los valores mientras se acumula en un marco de datos chispeante

¿Cómo puedo hacer un resumen del siguiente marco de datos, es decir, tener solo un registro para la clave común y sus valores como una tupla y mantener el orden de los valores. Puedo hacer el roll up pero no puedo mantener el orden de los ...

2 la respuesta

Cómo obtener la memoria del ejecutor del marco de agentes de Mesos

Inside Web Mesos UI Puedo ver el uso de memoria de mis ejecutores Spark en una tabla Agents -> Framework -> Executors Hay una tabla con todos los ejecutores de mi controlador Spark y su uso de memoria se indica en la columnaMem (Used / ...

1 la respuesta

PySpark "explotar" dict en la columna

Tengo una columna 'true_recoms' en el marco de datos de chispa: -RECORD 17----------------------------------------------------------------- item | 20380109 true_recoms | {"5556867":1,"5801144":5,"7397596":21} Necesito 'explotar' esta columna ...

1 la respuesta

Spark Streaming estructurado con fuente RabbitMQ

Estoy tratando de escribir un receptor personalizado paraStructured Streaming que consumirá mensajes deRabbitMQ. Spark lanzado recientemente [https://databricks.com/blog/2018/02/28/introducing-apache-spark-2-3.html] DataSource V2 API, que ...