Resultados de la búsqueda a petición "apache-spark-dataset"

1 la respuesta

¿Cuál es la diferencia entre Spark DataSet y RDD?

Todavía estoy luchando por comprender todo el poder de los conjuntos de datos Spark recientemente introducidos. ¿Existen mejores prácticas sobre cuándo usar RDD y cuándo usar conjuntos de datos? En ...

1 la respuesta

¿Cuándo usar Spark DataFrame / Dataset API y cuándo usar RDD simple?

El motor de ejecución Spark SQL DataFrame / Dataset tiene varias optimizaciones de tiempo y espacio extremadamente eficientes (por ejemplo, InternalRow y expression codeGen). Según muchas documentaciones, parece ser una mejor opción que RDD para ...

1 la respuesta

Spark / Scala: llene nan con la última buena observación

Estoy usando la chispa 2.0.1 y quiero llenar los valores nan con el último valor conocido en la columna. La única referencia para chispa que pude encontrarSpark / Scala: relleno hacia adelante con la última ...

1 la respuesta

Cómo obtener claves y valores de la columna MapType en SparkSQL DataFrame

Tengo datos en un archivo de parquet que tiene 2 campos:object_id: String yalpha: Map<>. Se lee en un marco de datos en sparkSQL y el esquema se ve así: scala> alphaDF.printSchema() root |-- object_id: string (nullable = true) |-- ALPHA: map ...

1 la respuesta

El DAG dinámico de Spark es mucho más lento y diferente del DAG codificado

Tengo una operación en chispa que se debe realizar para varias columnas en un marco de datos. Generalmente, hay 2 posibilidades para especificar tales operaciones Código difícilhandleBias("bar", df) .join(handleBias("baz", df), ...

1 la respuesta

Dataframe to Dataset que tiene el tipo Any

Recientemente me mudé de Spark 1.6 a Spark 2.X y también me gustaría pasar, cuando sea posible, de Dataframes a Datasets. Probé un código como este case class MyClass(a : Any, ...) val df = ... df.map(x => MyClass(x.get(0), ...))Como puedes ...

1 la respuesta

Spark 2 Dataset Excepción de valor nulo

Obteniendo este error nulo en spark Dataset.filter Entrada CSV: name,age,stat abc,22,m xyz,,sCódigo de trabajo: case class Person(name: String, age: Long, stat: String) val peopleDS = spark.read.option("inferSchema","true") ...

1 la respuesta

¿Cómo encontrar los primeros valores no nulos en grupos? (clasificación secundaria usando la API de conjunto de datos)

Estoy trabajando en un conjunto de datos que representa una secuencia de eventos (como los eventos de seguimiento de un sitio web). Todos los eventos tienen una marca de tiempo. Un caso de uso que a menudo tenemos es tratar de encontrar el primer ...

1 la respuesta

¿Por qué no se utiliza el pushdown de predicados en la API de conjunto de datos con tipo (frente a la API de marco de datos sin tipo)?

Siempre pensé que las API de dataset / dataframe son las mismas ... y la única diferencia es que la API de dataset le dará seguridad en el tiempo de compilación. Correcto Entonces, tengo un caso muy simple: case class Player (playerID: ...

2 la respuesta

¿Cómo convertir DataFrame a Dataset en Apache Spark en Java?

Puedo convertir DataFrame a Dataset en Scala muy fácil: case class Person(name:String, age:Long) val df = ctx.read.json("/tmp/persons.json") val ds = df.as[Person] ds.printSchemapero en la versión de Java no sé cómo convertir Dataframe a ...