Resultados da pesquisa a pedido "apache-spark"

4 a resposta

Como encontrar o valor máximo no par RDD?

Eu tenho um RDD de par de faíscas (chave, contagem) como abaixo Array[(String, Int)] = Array((a,1), (b,2), (c,1), (d,3))Como encontrar a chave com maior contagem usando a API spark scala? EDIT: tipo de dados do par RDD é ...

1 a resposta

Apache Spark Message Understanding

Solicite ajuda para entender esta mensagem. INFO spark.MapOutputTrackerMaster: Size of output statuses for shuffle 2 is **2202921** byteso que significa 2202921 aqui? Meu trabalho faz uma operação aleatória e, ao ler arquivos aleatórios do ...

4 a resposta

Qual é a diferença entre cache e persistir?

Em termos deRDD persistência, quais são as diferenças entrecache() epersist() na faísca?

2 a resposta

Qual função no spark é usada para combinar dois RDDs por teclas

Digamos que eu tenho os dois seguintes RDDs, com os seguintes valores de par de chaves. rdd1 = [ (key1, [value1, value2]), (key2, [value3, value4]) ]e rdd2 = [ (key1, [value5, value6]), (key2, [value7]) ]Agora, quero juntá-los ...

2 a resposta

org.apache.spark.SparkException: tarefa interrompida devido a falha do estágio: tarefa do aplicativo

Estou com um problema ao executar o aplicativo spark no cluster autônomo. (Eu uso a versão 1.1.0 do spark). Executo com êxito o servidor mestre por comando: bash start-master.shEntão eu corro um trabalhador por comando: bash spark-class ...

3 a resposta

Como obter elemento pelo Index no Spark RDD (Java)

Eu conheço o método rdd.first () que me fornece o primeiro elemento em um RDD. Também existe o método rdd.take (num), que me fornece os primeiros elementos "num". Mas não existe a possibilidade de obter um elemento por índice? Obrigado.

1 a resposta

Qual é o significado de "Locality Level" no cluster Spark

Qual é o significado do título "Locality Level" e do status 5 Data local -> local do processo -> local do nó -> local do rack -> local do rack -> Qualquer um?

1 a resposta

Filtrar RDD com base no número da linha

sc.textFile (path) permite ler um arquivo HDFS, mas não aceita parâmetros (como pular várias linhas, has_headers, ...). no e-book O'Reilly "Learning Spark", é recomendável usar a seguinte função para ler um CSV (Exemplo 5-12. Exemplo de ...

9 a resposta

Reduza um par de valor-chave em um par de lista de chaves com o Apache Spark

Estou escrevendo um aplicativo Spark e quero combinar um conjunto de pares de valor-chave(K, V1), (K, V2), ..., (K, Vn) em um par de chave-valor múltiplo(K, [V1, V2, ..., Vn]). Eu sinto que deveria ser capaz de fazer isso usando oreduceByKey ...

4 a resposta

Como obtenho um equivalente de número de linha SQL para um RDD Spark?

Preciso gerar uma lista completa de row_numbers para uma tabela de dados com muitas colunas. No SQL, isso seria assim: select key_value, col1, col2, col3, row_number() over (partition by key_value order by col1, col2 desc, col3) from temp ...