Resultados da pesquisa a pedido "rdd"
Como obter elemento pelo Index no Spark RDD (Java)
Eu conheço o método rdd.first () que me fornece o primeiro elemento em um RDD. Também existe o método rdd.take (num), que me fornece os primeiros elementos "num". Mas não existe a possibilidade de obter um elemento por índice? Obrigado.
Qual é a diferença entre cache e persistir?
Em termos deRDD persistência, quais são as diferenças entrecache() epersist() na faísca?
Qual função no spark é usada para combinar dois RDDs por teclas
Digamos que eu tenho os dois seguintes RDDs, com os seguintes valores de par de chaves. rdd1 = [ (key1, [value1, value2]), (key2, [value3, value4]) ]e rdd2 = [ (key1, [value5, value6]), (key2, [value7]) ]Agora, quero juntá-los ...
Reduza um par de valor-chave em um par de lista de chaves com o Apache Spark
Estou escrevendo um aplicativo Spark e quero combinar um conjunto de pares de valor-chave(K, V1), (K, V2), ..., (K, Vn) em um par de chave-valor múltiplo(K, [V1, V2, ..., Vn]). Eu sinto que deveria ser capaz de fazer isso usando oreduceByKey ...
Como obtenho um equivalente de número de linha SQL para um RDD Spark?
Preciso gerar uma lista completa de row_numbers para uma tabela de dados com muitas colunas. No SQL, isso seria assim: select key_value, col1, col2, col3, row_number() over (partition by key_value order by col1, col2 desc, col3) from temp ...
Spark: Como ingressar em RDDs por intervalo de tempo
Eu tenho um delicado problema do Spark, onde simplesmente não consigo entender. Temos dois RDDs (vindos de Cassandra). RDD1 contémActions e RDD2 contémHistoric dados. Ambos têm um ID no qual eles podem ser correspondidos / unidos. Mas o problema ...
Como compartilhar Spark RDD entre 2 contextos Spark?
Eu tenho um cluster RMI. Cada servidor RMI tem um contexto Spark. Existe alguma maneira de compartilhar um RDD entre diferentes contextos do Spark?
Explicar a funcionalidade agregada no Spark
Estou procurando uma explicação melhor da funcionalidade agregada que está disponível via spark em python. O exemplo que eu tenho é o seguinte (usando o pyspark da versão 1.2.0 do Spark) sc.parallelize([1,2,3,4]).aggregate( (0, 0), (lambda acc, ...
Como converter objeto rdd em dataframe no spark
Como posso converter um RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) para um Dataframeorg.apache.spark.sql.DataFrame. Eu converti um dataframe para rdd usando.rdd. Depois de processá-lo, quero-o novamente no dataframe. Como posso ...
Serializing RDD
Eu tenho um RDD que estou tentando serializar e depois reconstruir desserializando. Estou tentando ver se isso é possível no Apache Spark. static JavaSparkContext sc = new JavaSparkContext(conf); static SerializerInstance si = ...