tabelas de cache no apache spark sql
Do oficial Sparkdocumento, diz:
O Spark SQL pode armazenar em cache tabelas usando um formato colunar na memória chamando sqlContext.cacheTable ("tableName") ou dataFrame.cache (). O Spark SQL varrerá apenas as colunas necessárias e ajustará automaticamente a compactação para minimizar o uso de memória e a pressão do GC. Você pode chamar sqlContext.uncacheTable ("tableName") para remover a tabela da memória.
O que as tabelas de cache usando um formato colunar na memória realmente significam? Ponha a mesa inteira na memória? Como sabemos que o cache também é lento, a tabela é armazenada em cache após a primeira ação na consulta. Faz alguma diferença para a tabela em cache se você escolher ações ou consultas diferentes? Pesquisei esse tópico sobre o cache várias vezes, mas não encontrei alguns artigos detalhados. Eu realmente apreciaria se alguém puder fornecer alguns links ou artigos para este tópico.
http://spark.apache.org/docs/latest/sql-programming-guide.html#caching-data-in-memory