Resultados da pesquisa a pedido "apache-spark"
SparkSQL: Como lidar com valores nulos na função definida pelo usuário?
Dada a Tabela 1 com uma coluna "x" do tipo String. Eu quero criar a Tabela 2 com uma coluna "y" que é uma representação inteira das seqüências de datas fornecidas em "x". Essencialé manternull valores na coluna "y". Tabela 1 (Dataframe ...
Qual deve ser o valor ideal para spark.sql.shuffle.partitions ou como aumentamos as partições ao usar o Spark SQL?
Oi, eu estou usando Spark SQL realmentehiveContext.sql() que usa o grupo por consultas e estou correndo paraOOM problemas. Então, pensando em aumentar o valor despark.sql.shuffle.partitions de 200 padrão para 1000, mas não está ajudando. ...
Desempenho do Spark para Scala vs Python
Eu prefiro Python a Scala. Mas, como o Spark é originalmente escrito em Scala, eu esperava que meu código fosse executado mais rapidamente no Scala que na versão Python por razões óbvias. Com essa suposição, pensei em aprender e escrever a ...
Converter data de nascimento em idade na API Spark Dataframe
Parece simples, mas não consegui encontrar a resposta. Estou tentando converter uma coluna de data de nascimento no formato de data abaixo para o formato de data na API Spark Dataframe e depois calcular as idades correspondentes. Provavelmente ...
Spark: transmitindo jackson ObjectMapper
Eu tenho um aplicativo spark que lê linhas de arquivos e tenta desserializá-los usando jackson. Para que esse código funcionasse, eu precisava definir o ObjectMapper dentro da operação Map (caso contrário, recebi uma NullPointerException). Eu ...
Como definir o esquema para o tipo personalizado no Spark SQL?
O código de exemplo a seguir tenta colocar alguns objetos de caso em um quadro de dados. O código inclui a definição de uma hierarquia de objetos de caso e uma classe de caso usando esta característica: import org.apache.spark.{SparkContext, ...
Lendo a coleção enorme do MongoDB da Spark com a ajuda do Worker
Eu quero ler uma enorme coleção MongoDB do Spark, criar um RDD persistente e fazer uma análise de dados mais aprofundada. Existe alguma maneira de ler os dados do MongoDB mais rapidamente. Tentei com a abordagem do MongoDB Java + Casbah Posso ...
Haverá algum cenário em que o Spark RDD não consiga satisfazer a imutabilidade.?
Os RDDs Spark são construídos de maneira imutável, tolerante a falhas e resiliente. Os RDDs atendem à imutabilidade em todos os cenários? Ou há algum caso, seja em Streaming ou Core, onde o RDD pode falhar em satisfazer a imutabilidade?
Onde o spark procura arquivos de texto?
Eu pensei que o carregamento de arquivos de texto é feito apenas de trabalhadores / dentro do cluster (você só precisa garantir que todos os trabalhadores tenham acesso ao mesmo caminho, disponibilizando esse arquivo de texto em todos os nós ou ...
Como obter dados de uma partição específica no Spark RDD?
Desejo acessar dados de uma partição específica no Spark RDD. Eu posso obter o endereço de uma partição da seguinte maneira: myRDD.partitions(0)Mas eu quero obter dados demyRDD.partitions(0) partição. Tentei a documentação oficial ...