Resultados da pesquisa a pedido "apache-spark"
Analisando o scala Json no dataframe
Amostra Json "alternateId": [ { "type": "POPID", "value": "1-7842-0759-001" }, { "type": "CAMID", "value": "CAMID 0000-0002-7EC1-02FF-O-0000-0000-2" }, { "type": "ProgrammeUuid", "value": "1ddb01e2-6146-4e10-bba9-dde40d0ad886" } ]Eu ...
Erro de serialização do Spark
Estou tentando aprender spark + scala. Eu quero ler do HBase, mas sem mapreduce. Eu criei uma tabela simples do HBase - "test" e fiz 3 testes nela. Eu quero lê-lo via faísca (sem HBaseTest que usa mapreduce). Eu tentei executar os seguintes ...
Substituir apenas algumas partições em um conjunto de dados spark particionado
Como podemos sobrescrever um conjunto de dados particionado, mas apenas as partições que vamos alterar? Por exemplo, recalculando o trabalho diário da semana passada e substituindo apenas os dados da semana passada. O comportamento padrão do ...
Trabalhadores Spark incapazes de localizar JAR no cluster EC2
Estou usando o spark-ec2 para executar algum código Spark. Quando defino o mestre como "local", ele funciona bem. No entanto, quando defino master como $ MASTER, os trabalhadores falham imediatamente, com java.lang.NoClassDefFoundError para as ...
Como obter o caminho real do SSSP pelo apache spark graphX?
Eu executei o exemplo de caminho mais curto de fonte única (SSSP) no site spark da seguinte maneira: exemplo de pregel graphx-SSSP [http://spark.apache.org/docs/latest/graphx-programming-guide.html#pregel-api] Código (scala): object ...
Exceção EOF do Apache Spark
Estou recebendo uma EOFException ao executar um trabalho simples que lê um arquivo de texto e coleta os resultados. Isso funciona bem na minha máquina de desenvolvimento, mas falha ao executá-la no modo autônomo (máquina única, mestre + ...
Como classificar um RDD no Scala Spark?
Lendo o método Spark sortByKey: sortByKey([ascending], [numTasks]) When called on a dataset of (K, V) pairs where K implements Ordered, returns a dataset of (K, V) pairs sorted by keys in ascending or descending order, as specified in the ...
Cluster autônomo do SPARK +: não é possível iniciar o trabalhador de outra máquina
Eu estive configurando uma configuração de cluster independente do Sparkseguindo este link [http://spark.apache.org/docs/latest/spark-standalone.html#starting-a-cluster-manually] . Eu tenho 2 maquinas; O primeiro (ubuntu0) serve como mestre e ...
Obtenha simultaneidade ao salvar em um arquivo de parquet particionado
Ao escrever umdataframe paraparquet usandopartitionBy : df.write.partitionBy("col1","col2","col3").parquet(path)Seria minha expectativa que cada partição sendo gravada fosse executada de forma independente por uma tarefa separada e em paralelo ...
Como atribuir números contíguos exclusivos a elementos em um RDD Spark
Eu tenho um conjunto de dados de(user, product, review)e deseja alimentá-lo no algoritmo ALS do mllib. O algoritmo precisa que usuários e produtos sejam números, enquanto os meus são nomes de usuário e SKUs de String. No momento, recebo os ...