Результаты поиска по запросу "rdd"

1 ответ

этот ответ

я есть следующие данные в фрейме данных pyspark под названиемend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BИ я хочу агрегировать это следующим образом: Я хочу ...

1 ответ

Вот

аюсь трансформироватьсяRDD(key,value) вRDD(key,iterable[value])То же, что и результат, возвращаемыйgroupByKey метод. Но, какgroupByKey не эффективно, я пытаюсь использоватьcombineByKey на RDD вместо этого, однако, это не работает. Ниже приведен ...

1 ответ

Это идеально, это именно то, что мне было нужно. Большое спасибо!

аюсь получить доступ к зависимостям СДР. В Scala это довольно простой код: scala> val myRdd = sc.parallelize(0 to 9).groupBy(_ % 2) myRdd: org.apache.spark.rdd.RDD[(Int, Iterable[Int])] = ShuffledRDD[2] at groupBy at <console>:24 scala> ...

ТОП публикаций

2 ответа

http://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-persistence

оложим, у нас есть СДР, который используется несколько раз. Поэтому, чтобы снова и снова сохранять вычисления, мы сохранили этот RDD, используя метод rdd.persist (). Поэтому, когда мы сохраняем этот RDD, узлы, вычисляющие RDD, будут хранить ...

2 ответа

Также, как упоминалось в комментариях, эта задача будет проще с использованием Spark DataFrames.

я есть следующий ...

2 ответа

Если я хочу напрямую запустить файл .hql, могу ли я сделать это с помощью следующей команды. sqlContext.sql (открытый ( "file.hql"). чтения ())

от вопрос уже есть ответ здесь: Как получить значение из объекта Row в Spark Dataframe? [/questions/37999657/how-to-get-a-value-from-the-row-object-in-spark-dataframe] 3 ответаВ настоящее время я изучаю, как вызвать большие файлы hql (содержит ...

0 ответов

До вчерашнего дня все работало нормально. Не уверен, что является причиной этой ошибки. Скорее всего, некоторые настройки связаны. Как я могу это исправить?

аюсь запустить операцию сбора данных на СДР, созданную из Pyspark Dataframe (obj_filter): obj_filter.rdd.map(lambda l: (l[0],l[1],l[2])).collect()Вот несколько наблюдений из obj_filter, obj_filter.show (3): +--------+----------+---------+ | ...

3 ответа

Apache Spark: карта против mapPartitions?

Какая разница междуРДД-х [https://spark.apache.org/docs/latest/api/scala/#org.apache.spark.rdd.RDD] map а такжеmapPartitions метод? И делаетflatMap вести себя какmap или какmapPartitions? Благодарю. (редактировать), то есть какая разница ...