Resultados de la búsqueda a petición "apache-spark"
Obtener el tamaño / longitud de una columna de matriz
Soy nuevo en la programación de Scala y esta es mi pregunta: ¿Cómo contar el número de cadenas para cada fila? Mi Dataframe se compone de una sola columna de tipo Array [String]. friendsDF: org.apache.spark.sql.DataFrame = [friends: array<string>]
¿Cómo crear un conjunto de datos de mapas?
Estoy usando Spark 2.2 y estoy teniendo problemas al intentar llamarspark.createDataset en unSeq deMap. El código y la salida de mi sesión de Spark Shell siguen: // createDataSet on Seq[T] where T = Int works scala> ...
¿Cómo puede leer dataframereader http?
Mi entorno de desarrollo: IntellijMavenScala2.10.6win7 x64Dependencias: <dependencies> <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core_2.10 --> <dependency> ...
¿Cómo encontrar los primeros valores no nulos en grupos? (clasificación secundaria usando la API de conjunto de datos)
Estoy trabajando en un conjunto de datos que representa una secuencia de eventos (como los eventos de seguimiento de un sitio web). Todos los eventos tienen una marca de tiempo. Un caso de uso que a menudo tenemos es tratar de encontrar el primer ...
Partición de parquet Spark: gran cantidad de archivos
Estoy tratando de aprovechar la partición de chispas. Estaba tratando de hacer algo como data.write.partitionBy("key").parquet("/location")El problema aquí es que cada partición crea una gran cantidad de archivos de parquet que resultan en ...
Pyspark: Pase múltiples columnas en UDF
Estoy escribiendo una función definida por el usuario que tomará todas las columnas excepto la primera en un marco de datos y sumará (o cualquier otra operación). Ahora el marco de datos a veces puede tener 3 columnas o 4 columnas o más. ...
PySpark reemplaza nulo en columna con valor en otra columna
Quiero reemplazar los valores nulos en una columna con los valores en una columna adyacente, por ejemplo, si tengo A|B 0,1 2,null 3,null 4,2Quiero que sea: A|B 0,1 2,2 3,3 4,2Probado con df.na.fill(df.A,"B")Pero no funcionó, dice que el valor ...
¿Cómo escribir un conjunto de datos de transmisión a Kafka?
Estoy tratando de enriquecer los datos de los temas. Por lo tanto, lea desde Kafka hasta Kafka utilizando la transmisión estructurada de Spark. val ds = spark.readStream .format("kafka") .option("kafka.bootstrap.servers", bootstrapServers) ...
Spark ML Pipeline con RandomForest lleva demasiado tiempo en un conjunto de datos de 20 MB
Estoy usando Spark ML para ejecutar algunos experimentos de ML y en un pequeño conjunto de datos de 20 MB (Conjunto de datos de póker [http://archive.ics.uci.edu/ml/machine-learning-databases/poker/poker-hand-testing.data] ) y un bosque aleatorio ...
¿Diferencia entre createTempview y createGlobaltempview y CreateorReplaceTempview en spark 2.1?
Cuál es la diferencia entrecreateTempview ycreateGlobaltempview yCreateorReplaceTempview en chispa 2.1 ??