Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

Spark estructurado coherencia de transmisión a través de sumideros

Me gustaría entender mejor el modelo de coherencia de la transmisión estructurada de Spark 2.2 en el siguiente caso: una fuente (Kinesis)2 consultas de esta fuente hacia 2 sumideros diferentes: un receptor de archivos para fines de archivo (S3) ...

2 la respuesta

Spark dataframe: Pivot y Group basado en columnas

Tengo el marco de datos de entrada como se muestra a continuación con ID, aplicación y cliente Marco de datos de entrada +--------------------+-----+---------+ | id|app |customer | +--------------------+-----+---------+ |id1 | fw| WM | |id1 | ...

2 la respuesta

PySpark: ¿Cómo rellenar valores en el marco de datos para columnas específicas?

Tengo el siguiente DataFrame de muestra: a | b | c | 1 | 2 | 4 | 0 | null | null| null | 3 | 4 |Y quiero reemplazar los valores nulos solo en las 2 primeras columnas - Columna "a" y "b": a | b | c | 1 | 2 | 4 | 0 | 0 | null| 0 | 3 | 4 |Aquí ...

1 la respuesta

Cómo (igualmente) particionar datos de matriz en el marco de datos de chispa

Tengo un marco de datos de la siguiente forma: import scala.util.Random val localData = (1 to 100).map(i => (i,Seq.fill(Math.abs(Random.nextGaussian()*100).toInt)(Random.nextDouble))) val df = sc.parallelize(localData).toDF("id","data") |-- id: ...

1 la respuesta

Uso de UDF de Spark con secuencias de estructura

Dado un marco de datos en el que una columna es una secuencia de estructuras generadas por la siguiente secuencia val df = spark .range(10) .map((i) => (i % 2, util.Random.nextInt(10), util.Random.nextInt(10))) .toDF("a","b","c") ...

1 la respuesta

¿Cómo mostrar un DataFrame de transmisión (ya que el programa falla con AnalysisException)?

Así que tengo algunos datos que estoy transmitiendo en un tema de Kafka, tomo estos datos de transmisión y los coloco en unDataFrame. Quiero mostrar los datos dentro del DataFrame: import os from kafka import KafkaProducer from pyspark.sql ...

8 la respuesta

Obteniendo NullPointerException cuando se ejecuta Spark Code en Zeppelin 0.7.1

He instaladoZeppelin 0.7.1. Cuando intenté ejecutar el programa Ejemplo de chispa (que estaba disponible conZeppelin Tutorial cuaderno), recibo el siguiente error java.lang.NullPointerException ...

1 la respuesta

Error al pasar datos de un Dataframe a un ML VectorIndexerModel existente

Tengo un Dataframe que quiero usar para la predicción con un modelo existente. Recibo un error cuando uso el método de transformación de mi modelo. Así es como proceso los datos de entrenamiento. forecast.printSchema()El esquema de mi ...

1 la respuesta

Sirva predicciones en tiempo real con el modelo entrenado Spark ML [duplicado]

Esta pregunta ya tiene una respuesta aquí: ¿Cómo servir un modelo Spark MLlib? [/questions/40533582/how-to-serve-a-spark-mllib-model] 3 respuestasActualmente estamos probando un motor de predicción basado en la implementación de LDA por Spark en ...

3 la respuesta

Mediana / cuantiles dentro del grupo PySpark

Me gustaría calcular cuantiles grupales en un marco de datos Spark (usando PySpark). Un resultado aproximado o exacto estaría bien. Prefiero una solución que pueda usar dentro del contexto degroupBy / agg, para poder mezclarlo con otras funciones ...