tablas de caché en apache spark sql

Question

Feb 15, 2016, 10:27 PM

tablas de caché en apache spark sql

Del oficial de Sparkdocumento, dice:

Spark SQL puede almacenar en caché las tablas usando un formato de columnas en memoria llamando a sqlContext.cacheTable ("tableName") o dataFrame.cache (). Luego, Spark SQL escaneará solo las columnas requeridas y ajustará automáticamente la compresión para minimizar el uso de memoria y la presión del GC. Puede llamar a sqlContext.uncacheTable ("tableName") para eliminar la tabla de la memoria.

¿Qué significa realmente el almacenamiento en caché de tablas usando un formato de columnas en memoria? Poner toda la mesa en la memoria? Como sabemos que el caché también es vago, la tabla se almacena en caché después de la primera acción en la consulta. ¿Hay alguna diferencia en la tabla en caché si se eligen diferentes acciones o consultas? Busqué en Google este tema de caché varias veces, pero no pude encontrar algunos artículos detallados. Realmente agradecería si alguien puede proporcionar algunos enlaces o artículos para este tema.

http://spark.apache.org/docs/latest/sql-programming-guide.html#caching-data-in-memory