Resultados da pesquisa a pedido "apache-spark"
Como encontrar o valor máximo no par RDD?
Eu tenho um RDD de par de faíscas (chave, contagem) como abaixo Array[(String, Int)] = Array((a,1), (b,2), (c,1), (d,3))Como encontrar a chave com maior contagem usando a API spark scala? EDIT: tipo de dados do par RDD é ...
Apache Spark Message Understanding
Solicite ajuda para entender esta mensagem. INFO spark.MapOutputTrackerMaster: Size of output statuses for shuffle 2 is **2202921** byteso que significa 2202921 aqui? Meu trabalho faz uma operação aleatória e, ao ler arquivos aleatórios do ...
Qual é a diferença entre cache e persistir?
Em termos deRDD persistência, quais são as diferenças entrecache() epersist() na faísca?
Qual função no spark é usada para combinar dois RDDs por teclas
Digamos que eu tenho os dois seguintes RDDs, com os seguintes valores de par de chaves. rdd1 = [ (key1, [value1, value2]), (key2, [value3, value4]) ]e rdd2 = [ (key1, [value5, value6]), (key2, [value7]) ]Agora, quero juntá-los ...
org.apache.spark.SparkException: tarefa interrompida devido a falha do estágio: tarefa do aplicativo
Estou com um problema ao executar o aplicativo spark no cluster autônomo. (Eu uso a versão 1.1.0 do spark). Executo com êxito o servidor mestre por comando: bash start-master.shEntão eu corro um trabalhador por comando: bash spark-class ...
Como obter elemento pelo Index no Spark RDD (Java)
Eu conheço o método rdd.first () que me fornece o primeiro elemento em um RDD. Também existe o método rdd.take (num), que me fornece os primeiros elementos "num". Mas não existe a possibilidade de obter um elemento por índice? Obrigado.
Qual é o significado de "Locality Level" no cluster Spark
Qual é o significado do título "Locality Level" e do status 5 Data local -> local do processo -> local do nó -> local do rack -> local do rack -> Qualquer um?
Filtrar RDD com base no número da linha
sc.textFile (path) permite ler um arquivo HDFS, mas não aceita parâmetros (como pular várias linhas, has_headers, ...). no e-book O'Reilly "Learning Spark", é recomendável usar a seguinte função para ler um CSV (Exemplo 5-12. Exemplo de ...
Reduza um par de valor-chave em um par de lista de chaves com o Apache Spark
Estou escrevendo um aplicativo Spark e quero combinar um conjunto de pares de valor-chave(K, V1), (K, V2), ..., (K, Vn) em um par de chave-valor múltiplo(K, [V1, V2, ..., Vn]). Eu sinto que deveria ser capaz de fazer isso usando oreduceByKey ...
Como obtenho um equivalente de número de linha SQL para um RDD Spark?
Preciso gerar uma lista completa de row_numbers para uma tabela de dados com muitas colunas. No SQL, isso seria assim: select key_value, col1, col2, col3, row_number() over (partition by key_value order by col1, col2 desc, col3) from temp ...