Conjunto de datos Spark 2.0 vs DataFrame

Question

Nov 14, 2016, 08:44 PM

apache-spark-dataset scala apache-spark-2.0 apache-spark apache-spark-sql

Conjunto de datos Spark 2.0 vs DataFrame

comenzando con la chispa 2.0.1 Tengo algunas preguntas. Leí mucha documentación pero hasta ahora no pude encontrar suficientes respuestas:

Cuál es la diferencia entredf.select("foo")df.select($"foo")entiendo correctamente quemyDataSet.map(foo.someVal) es seguro y no se convertirá enRDD pero manténgase en la representación del conjunto de datos / sin sobrecarga adicional (rendimiento inteligente para 2.0.0)todos los otros comandos, p. seleccione, ... son solo azúcar sintáctico. No son de tipo seguro y en su lugar podría usarse un mapa. Cómo podríadf.select("foo") ¿Tipo seguro sin una declaración de mapa?¿por qué debería usar un UDF / UADF en lugar de un mapa (suponiendo que el mapa permanezca en la representación del conjunto de datos)?