Результаты поиска по запросу "rdd"
Как я могу эффективно соединить большой rdd с очень большим rdd в искре?
У меня есть два RDD. Одна СДР составляет от 5 до 10 миллионов записей, а другая СДР - от 500 до 750 миллионов записей. В какой-то момент я должен присоединит...
Список как ключ для PySpark's ReduceByKey
Я пытаюсь вызвать функцию pyspark reduByKey для данных формата
Пояснение метода складывания искры RDD
Я запускаю Spark-1.4.0, предварительно созданную для Hadoop-2.4 (в локальном режиме), чтобы вычислить сумму квадратов DoubleRDD. Мой код Scala выглядит так
Не в состоянии объявить аккумулятор типа String
Я пытаюсь определить переменную аккумулятора типа String в оболочке Scala (драйвер), но получаю следующую ошибку: -
Spark - repartition () против coalesce ()
По данным Learning SparkИмейте в виду, что перераспределение ваших данных является довольно дорогой операцией. Spark также имеет оптимизированную версию repa...
Конвертация RDD в LabeledPoint
Если у меня есть RDD около 500 столбцов и 200 миллионов строк, и