Resultados da pesquisa a pedido "apache-spark"
Criando um dicionário grande no pyspark
Estou tentando resolver o seguinte problema usando o pyspark. Eu tenho um arquivo em hdfs no formato que é um despejo de tabela de pesquisa. key1, value1 key2, value2 ...Eu quero carregar isso no dicionário python no pyspark e usá-lo para algum ...
Apache Spark: O número de núcleos versus o número de executores
Estou tentando entender a relação do número de núcleos e o número de executores ao executar uma tarefa do Spark no YARN. O ambiente de teste é o seguinte: Número de nós de dados: 3Especificação da máquina do nó de dados:CPU: Core i7-4790 (nº de ...
Como definir o endereço mestre para exemplos do Spark na linha de comando
NOTA: O autor está procurando respostas para definir o Spark Master ao executar exemplos do Spark que envolvemnãoalterações no código-fonte, mas apenas opções que podem ser executadas na linha de comando, se possível. Vamos considerar o método ...
Mapa Distribuído em Scala Spark
O Spark suporta tipos de coleção de mapas distribuídos? Portanto, se eu tiver um HashMap [String, String] que seja chave, pares de valores, isso poderá ser convertido em um tipo de coleção de Mapas distribuído? Para acessar o elemento, eu ...
Como seleciono um intervalo de elementos no Spark RDD?
Gostaria de selecionar uma gama de elementos em um Spark RDD. Por exemplo, tenho um RDD com cem elementos e preciso selecionar elementos de 60 a 80. Como faço isso? Vejo que o RDD possui um método take (i: int), que retorna os primeiros ...
Obtendo o erro "Falha ao obter uma instância do HMACSHA256" ao acessar o Azure CosmosDB
Estou tentando gravar o quadro de dados Spark no Azure CosmosDB e defini toda a configuração correta, mas obtendo o seguinte erro ao tentar gravar dados. My Build.sbt name := "MyApp" version := "1.0" scalaVersion := "2.10.7" ...
Contagem de palavras acumuladas do Streaming Spark
Este é um programa de streaming de faísca escrito em scala. Conta o número de palavras de um soquete a cada 1 segundo. O resultado seria a contagem de palavras, por exemplo, a contagem de palavras do tempo de 0 a 1, e a contagem de palavras do ...
Apache Spark - MlLib - Filtragem colaborativa
Estou tentando usar o MlLib para minha filtragem coloborativa. Encontro o seguinte erro no meu programa Scala quando o executo no Apache Spark 1.0.0. 14/07/15 16:16:31 WARN NativeCodeLoader: Unable to load native-hadoop library for your ...
Como a função agregada do Spark - agregateByKey funciona?
Digamos que eu tenha um sistema de distribuição em 3 nós e meus dados sejam distribuídos entre esses nós. por exemplo, eu tenho um arquivo test.csv que existe em todos os 3 nós e contém 2 colunas de: **row | id, c.** --------------- row1 | k1 , ...
Apache Spark: Trabalho interrompido devido a falha do estágio: "TID x falhou por razões desconhecidas"
Estou lidando com algumas mensagens de erro estranhas que eupensar se resume a um problema de memória, mas estou tendo dificuldades para identificá-lo e poderia usar algumas orientações dos especialistas. Eu tenho um cluster Spark (1.0.1) de 2 ...