Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Analisando o scala Json no dataframe

Amostra Json "alternateId": [ { "type": "POPID", "value": "1-7842-0759-001" }, { "type": "CAMID", "value": "CAMID 0000-0002-7EC1-02FF-O-0000-0000-2" }, { "type": "ProgrammeUuid", "value": "1ddb01e2-6146-4e10-bba9-dde40d0ad886" } ]Eu ...

2 a resposta

Erro de serialização do Spark

Estou tentando aprender spark + scala. Eu quero ler do HBase, mas sem mapreduce. Eu criei uma tabela simples do HBase - "test" e fiz 3 testes nela. Eu quero lê-lo via faísca (sem HBaseTest que usa mapreduce). Eu tentei executar os seguintes ...

2 a resposta

Substituir apenas algumas partições em um conjunto de dados spark particionado

Como podemos sobrescrever um conjunto de dados particionado, mas apenas as partições que vamos alterar? Por exemplo, recalculando o trabalho diário da semana passada e substituindo apenas os dados da semana passada. O comportamento padrão do ...

2 a resposta

Trabalhadores Spark incapazes de localizar JAR no cluster EC2

Estou usando o spark-ec2 para executar algum código Spark. Quando defino o mestre como "local", ele funciona bem. No entanto, quando defino master como $ MASTER, os trabalhadores falham imediatamente, com java.lang.NoClassDefFoundError para as ...

2 a resposta

Como obter o caminho real do SSSP pelo apache spark graphX?

Eu executei o exemplo de caminho mais curto de fonte única (SSSP) no site spark da seguinte maneira: exemplo de pregel graphx-SSSP [http://spark.apache.org/docs/latest/graphx-programming-guide.html#pregel-api] Código (scala): object ...

1 a resposta

Exceção EOF do Apache Spark

Estou recebendo uma EOFException ao executar um trabalho simples que lê um arquivo de texto e coleta os resultados. Isso funciona bem na minha máquina de desenvolvimento, mas falha ao executá-la no modo autônomo (máquina única, mestre + ...

3 a resposta

Como classificar um RDD no Scala Spark?

Lendo o método Spark sortByKey: sortByKey([ascending], [numTasks]) When called on a dataset of (K, V) pairs where K implements Ordered, returns a dataset of (K, V) pairs sorted by keys in ascending or descending order, as specified in the ...

4 a resposta

Cluster autônomo do SPARK +: não é possível iniciar o trabalhador de outra máquina

Eu estive configurando uma configuração de cluster independente do Sparkseguindo este link [http://spark.apache.org/docs/latest/spark-standalone.html#starting-a-cluster-manually] . Eu tenho 2 maquinas; O primeiro (ubuntu0) serve como mestre e ...

1 a resposta

Obtenha simultaneidade ao salvar em um arquivo de parquet particionado

Ao escrever umdataframe paraparquet usandopartitionBy : df.write.partitionBy("col1","col2","col3").parquet(path)Seria minha expectativa que cada partição sendo gravada fosse executada de forma independente por uma tarefa separada e em paralelo ...

5 a resposta

Como atribuir números contíguos exclusivos a elementos em um RDD Spark

Eu tenho um conjunto de dados de(user, product, review)e deseja alimentá-lo no algoritmo ALS do mllib. O algoritmo precisa que usuários e produtos sejam números, enquanto os meus são nomes de usuário e SKUs de String. No momento, recebo os ...