Resultados de la búsqueda a petición "apache-spark"
¿Cómo genero filas dependiendo del valor de la columna en spark?
suppose Si tengo una sola columna con una fila +---+ | id| +---+ | 4| +---+then ¿cómo genero filas dependiendo del valor de una columna +---+ | id| +---+ | 1 | |---| | 2 | |---| | 3 | |---| | 4 | +---+
Manipulación de fila para Dataframe en chispa [duplicado]
Esta pregunta ya tiene una respuesta aquí: Cómo mapear un Dataframe anidado en Spark [/questions/36784735/how-to-flatmap-a-nested-dataframe-in-spark] 1 respuesta Tengo un marco de datos en chispa que es como: column_A | column_B --------- ...
Procesamiento de columnas eficiente en PySpark
Tengo un marco de datos con una gran cantidad de columnas (> 30000). Lo estoy llenando con1 y0 basado en la primera columna como esta: for column in list_of_column_names: df = df.withColumn(column, when(array_contains(df['list_column'], ...
Spark Agregación de transmisión estructurada para datos de marcas de tiempo antiguas
ntento agregar el recuento de registros cada 10 segundos utilizando la transmisión estructurada para los siguientes datos entrantes de Kafk { "ts2" : "2018/05/01 00:02:50.041", "serviceGroupId" : "123", "userId" : "avv-0", "stream" : "", ...
pasando el valor de RDD a otro RDD como variable - Spark #Pyspark [duplicado]
Esta pregunta ya tiene una respuesta aquí: ¿Cómo obtener un valor del objeto Row en Spark Dataframe? [/questions/37999657/how-to-get-a-value-from-the-row-object-in-spark-dataframe] 3 respuestas Actualmente estoy explorando cómo llamar a grandes ...
maxCategories no funciona como se esperaba en VectorIndexer cuando se usa RandomForestClassifier en pyspark.ml
Fondo: estoy haciendo una clasificación binaria simple, usando RandomForestClassifier de pyspark.ml. Antes de alimentar los datos al entrenamiento, logré usar VectorIndexer para decidir si las características serían numéricas o categóricas al ...
Cómo mantener el orden de los valores mientras se acumula en un marco de datos chispeante
¿Cómo puedo hacer un resumen del siguiente marco de datos, es decir, tener solo un registro para la clave común y sus valores como una tupla y mantener el orden de los valores. Puedo hacer el roll up pero no puedo mantener el orden de los ...
Cómo obtener la memoria del ejecutor del marco de agentes de Mesos
Inside Web Mesos UI Puedo ver el uso de memoria de mis ejecutores Spark en una tabla Agents -> Framework -> Executors Hay una tabla con todos los ejecutores de mi controlador Spark y su uso de memoria se indica en la columnaMem (Used / ...
PySpark "explotar" dict en la columna
Tengo una columna 'true_recoms' en el marco de datos de chispa: -RECORD 17----------------------------------------------------------------- item | 20380109 true_recoms | {"5556867":1,"5801144":5,"7397596":21} Necesito 'explotar' esta columna ...
Spark Streaming estructurado con fuente RabbitMQ
Estoy tratando de escribir un receptor personalizado paraStructured Streaming que consumirá mensajes deRabbitMQ. Spark lanzado recientemente [https://databricks.com/blog/2018/02/28/introducing-apache-spark-2-3.html] DataSource V2 API, que ...