Melhor abordagem do Spark Consultar Dataframe para melhorar o desempenho

Question

Aug 26, 2016, 07:27 PM

apache-spark datastax-enterprise cassandra scala

Melhor abordagem do Spark Consultar Dataframe para melhorar o desempenho

Dataframe A (milhões de registros), uma das colunas é create_date, modified_date

Os registros do Dataframe B 500 possuem data de início e data de término

Abordagem atual:

Select a.*,b.* from a join b on a.create_date between start_date and end_date

O trabalho acima leva meia hora ou mais para ser executado.

como posso melhorar o desempenho

questionAnswers(2)

Perguntas populares

0 a resposta

Alterando a hora de 1-24 para 1-12 horas para o método "getHours ()"

0 a resposta

Propriedades de inicialização da mola a serem carregadas na inicialização e respeitam todos e controlam @Aspect com base no valor do arquivo de propriedades

0 a resposta

Como armazenar e chamar uma função compilada em C / C ++?

0 a resposta

Como obter o tamanho do bloco de memória após o malloc?

0 a resposta

Colocar uma imagem no canto superior direito - CSS

Você é muito ativo! É ótimo!

Melhor abordagem do Spark Consultar Dataframe para melhorar o desempenho

questionAnswers(2)

yourAnswerToTheQuestion

Perguntas populares