Resultados da pesquisa a pedido "rdd"

3 a resposta

Como obter elemento pelo Index no Spark RDD (Java)

Eu conheço o método rdd.first () que me fornece o primeiro elemento em um RDD. Também existe o método rdd.take (num), que me fornece os primeiros elementos "num". Mas não existe a possibilidade de obter um elemento por índice? Obrigado.

4 a resposta

Qual é a diferença entre cache e persistir?

Em termos deRDD persistência, quais são as diferenças entrecache() epersist() na faísca?

2 a resposta

Qual função no spark é usada para combinar dois RDDs por teclas

Digamos que eu tenho os dois seguintes RDDs, com os seguintes valores de par de chaves. rdd1 = [ (key1, [value1, value2]), (key2, [value3, value4]) ]e rdd2 = [ (key1, [value5, value6]), (key2, [value7]) ]Agora, quero juntá-los ...

9 a resposta

Reduza um par de valor-chave em um par de lista de chaves com o Apache Spark

Estou escrevendo um aplicativo Spark e quero combinar um conjunto de pares de valor-chave(K, V1), (K, V2), ..., (K, Vn) em um par de chave-valor múltiplo(K, [V1, V2, ..., Vn]). Eu sinto que deveria ser capaz de fazer isso usando oreduceByKey ...

4 a resposta

Como obtenho um equivalente de número de linha SQL para um RDD Spark?

Preciso gerar uma lista completa de row_numbers para uma tabela de dados com muitas colunas. No SQL, isso seria assim: select key_value, col1, col2, col3, row_number() over (partition by key_value order by col1, col2 desc, col3) from temp ...

3 a resposta

Spark: Como ingressar em RDDs por intervalo de tempo

Eu tenho um delicado problema do Spark, onde simplesmente não consigo entender. Temos dois RDDs (vindos de Cassandra). RDD1 contémActions e RDD2 contémHistoric dados. Ambos têm um ID no qual eles podem ser correspondidos / unidos. Mas o problema ...

3 a resposta

Como compartilhar Spark RDD entre 2 contextos Spark?

Eu tenho um cluster RMI. Cada servidor RMI tem um contexto Spark. Existe alguma maneira de compartilhar um RDD entre diferentes contextos do Spark?

7 a resposta

Explicar a funcionalidade agregada no Spark

Estou procurando uma explicação melhor da funcionalidade agregada que está disponível via spark em python. O exemplo que eu tenho é o seguinte (usando o pyspark da versão 1.2.0 do Spark) sc.parallelize([1,2,3,4]).aggregate( (0, 0), (lambda acc, ...

10 a resposta

Como converter objeto rdd em dataframe no spark

Como posso converter um RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) para um Dataframeorg.apache.spark.sql.DataFrame. Eu converti um dataframe para rdd usando.rdd. Depois de processá-lo, quero-o novamente no dataframe. Como posso ...

1 a resposta

Serializing RDD

Eu tenho um RDD que estou tentando serializar e depois reconstruir desserializando. Estou tentando ver se isso é possível no Apache Spark. static JavaSparkContext sc = new JavaSparkContext(conf); static SerializerInstance si = ...