Resultados de la búsqueda a petición "apache-spark-dataset"

2 la respuesta

¿Cómo convertir DataFrame a Dataset en Apache Spark en Java?

Puedo convertir DataFrame a Dataset en Scala muy fácil: case class Person(name:String, age:Long) val df = ctx.read.json("/tmp/persons.json") val ds = df.as[Person] ds.printSchemapero en la versión de Java no sé cómo convertir Dataframe a ...

3 la respuesta

¿Cómo crear un conjunto de datos a partir de la clase personalizada Persona?

Estaba tratando de crear unDataset en Java, entonces escribo el siguiente código: public Dataset createDataset(){ List<Person> list = new ArrayList<>(); list.add(new Person("name", 10, 10.0)); Dataset<Person> dateset ...

1 la respuesta

¿Cuál es la diferencia entre Spark DataSet y RDD?

Todavía estoy luchando por comprender todo el poder de los conjuntos de datos Spark recientemente introducidos. ¿Existen mejores prácticas sobre cuándo usar RDD y cuándo usar conjuntos de datos? En ...

3 la respuesta

Spark Dataset API - unirse

Estoy tratando de usar la chispaConjunto de datos [https://databricks.com/blog/2016/01/04/introducing-spark-datasets.html]API pero tengo algunos problemas para hacer una unión simple. Digamos que tengo dos conjuntos de datos con campos:date | ...

8 la respuesta

¿Cómo almacenar objetos personalizados en el conjunto de datos?

De acuerdo aPresentación de conjuntos de datos de Spark [https://databricks.com/blog/2016/01/04/introducing-spark-datasets.html]: Mientras esperamos Spark 2.0, planeamos algunas mejoras interesantes para los conjuntos de datos, específicamente: ...

1 la respuesta

¿Cuándo usar Spark DataFrame / Dataset API y cuándo usar RDD simple?

El motor de ejecución Spark SQL DataFrame / Dataset tiene varias optimizaciones de tiempo y espacio extremadamente eficientes (por ejemplo, InternalRow y expression codeGen). Según muchas documentaciones, parece ser una mejor opción que RDD para ...

2 la respuesta

Spark Dataset select with typedcolumn

Mirando a laselect() En la función Spark DataSet hay varias firmas de funciones generadas: (c1: TypedColumn[MyClass, U1],c2: TypedColumn[MyClass, U2] ....)Esto parece insinuar que debería poder hacer referencia a los miembros de ...

1 la respuesta

Spark / Scala: llene nan con la última buena observación

Estoy usando la chispa 2.0.1 y quiero llenar los valores nan con el último valor conocido en la columna. La única referencia para chispa que pude encontrarSpark / Scala: relleno hacia adelante con la última ...

2 la respuesta

Conjunto de datos Spark 2.0 vs DataFrame

comenzando con la chispa 2.0.1 Tengo algunas preguntas. Leí mucha documentación pero hasta ahora no pude encontrar suficientes respuestas: Cuál es la diferencia entredf.select("foo")df.select($"foo")entiendo correctamente ...

1 la respuesta

Cómo obtener claves y valores de la columna MapType en SparkSQL DataFrame

Tengo datos en un archivo de parquet que tiene 2 campos:object_id: String yalpha: Map<>. Se lee en un marco de datos en sparkSQL y el esquema se ve así: scala> alphaDF.printSchema() root |-- object_id: string (nullable = true) |-- ALPHA: map ...