Resultados da pesquisa a pedido "apache-spark"

3 a resposta

SparkSQL: Como lidar com valores nulos na função definida pelo usuário?

Dada a Tabela 1 com uma coluna "x" do tipo String. Eu quero criar a Tabela 2 com uma coluna "y" que é uma representação inteira das seqüências de datas fornecidas em "x". Essencialé manternull valores na coluna "y". Tabela 1 (Dataframe ...

4 a resposta

Qual deve ser o valor ideal para spark.sql.shuffle.partitions ou como aumentamos as partições ao usar o Spark SQL?

Oi, eu estou usando Spark SQL realmentehiveContext.sql() que usa o grupo por consultas e estou correndo paraOOM problemas. Então, pensando em aumentar o valor despark.sql.shuffle.partitions de 200 padrão para 1000, mas não está ajudando. ...

1 a resposta

Desempenho do Spark para Scala vs Python

Eu prefiro Python a Scala. Mas, como o Spark é originalmente escrito em Scala, eu esperava que meu código fosse executado mais rapidamente no Scala que na versão Python por razões óbvias. Com essa suposição, pensei em aprender e escrever a ...

4 a resposta

Converter data de nascimento em idade na API Spark Dataframe

Parece simples, mas não consegui encontrar a resposta. Estou tentando converter uma coluna de data de nascimento no formato de data abaixo para o formato de data na API Spark Dataframe e depois calcular as idades correspondentes. Provavelmente ...

2 a resposta

Spark: transmitindo jackson ObjectMapper

Eu tenho um aplicativo spark que lê linhas de arquivos e tenta desserializá-los usando jackson. Para que esse código funcionasse, eu precisava definir o ObjectMapper dentro da operação Map (caso contrário, recebi uma NullPointerException). Eu ...

1 a resposta

Como definir o esquema para o tipo personalizado no Spark SQL?

O código de exemplo a seguir tenta colocar alguns objetos de caso em um quadro de dados. O código inclui a definição de uma hierarquia de objetos de caso e uma classe de caso usando esta característica: import org.apache.spark.{SparkContext, ...

1 a resposta

Lendo a coleção enorme do MongoDB da Spark com a ajuda do Worker

Eu quero ler uma enorme coleção MongoDB do Spark, criar um RDD persistente e fazer uma análise de dados mais aprofundada. Existe alguma maneira de ler os dados do MongoDB mais rapidamente. Tentei com a abordagem do MongoDB Java + Casbah Posso ...

2 a resposta

Haverá algum cenário em que o Spark RDD não consiga satisfazer a imutabilidade.?

Os RDDs Spark são construídos de maneira imutável, tolerante a falhas e resiliente. Os RDDs atendem à imutabilidade em todos os cenários? Ou há algum caso, seja em Streaming ou Core, onde o RDD pode falhar em satisfazer a imutabilidade?

2 a resposta

Onde o spark procura arquivos de texto?

Eu pensei que o carregamento de arquivos de texto é feito apenas de trabalhadores / dentro do cluster (você só precisa garantir que todos os trabalhadores tenham acesso ao mesmo caminho, disponibilizando esse arquivo de texto em todos os nós ou ...

1 a resposta

Como obter dados de uma partição específica no Spark RDD?

Desejo acessar dados de uma partição específica no Spark RDD. Eu posso obter o endereço de uma partição da seguinte maneira: myRDD.partitions(0)Mas eu quero obter dados demyRDD.partitions(0) partição. Tentei a documentação oficial ...