Результаты поиска по запросу "rdd"
спасибо за любую помощь в решении этой проблемы
аюсь использовать искровое разделение. Я пытался сделать что-то вроде data.write.partitionBy("key").parquet("/location")Проблема здесь в каждом разделе создает огромное количество паркетных файлов, что приводит к медленному чтению, если я ...
и уверен, что вы знаете, что делаете при изменении кода: ваше редактирование испортило совершенно хороший ответ, в результате чего возникло исключение (восстановленное в оригинале OP) ...
я есть фрейм данных со следующим типом col1|col2|col3|col4 xxxx|yyyy|zzzz|[1111],[2222]Я хочу, чтобы мой вывод был следующего типа col1|col2|col3|col4|col5 xxxx|yyyy|zzzz|1111|2222Мой col4 является массивом, и я хочу преобразовать его в ...
stackoverflow.com/questions/47867743/...
аюсь отфильтровать данные файла в хорошие и плохие данные за дату, поэтому получу 2 файла результатов. Из тестового файла первые 4 строки должны идти в хороших данных и последние 2 строки в плохих данных. У меня 2 вопроса Я не получаю хорошие ...
До вчерашнего дня все работало нормально. Не уверен, что является причиной этой ошибки. Скорее всего, некоторые настройки связаны. Как я могу это исправить?
аюсь запустить операцию сбора данных на СДР, созданную из Pyspark Dataframe (obj_filter): obj_filter.rdd.map(lambda l: (l[0],l[1],l[2])).collect()Вот несколько наблюдений из obj_filter, obj_filter.show (3): +--------+----------+---------+ | ...
Сериализация RDD
У меня есть RDD, который я пытаюсь сериализовать, а затем восстановить путем десериализации. Я пытаюсь увидеть, возможно ли это в Apache Spark.
как интерпретировать RDD.treeAggregate
Я столкнулся сэта линия в исходном коде Apache Spark
reduByKey: Как это работает внутри?
Я новичок в Spark и Scala. Я был сбит с толку о том, как функция limitByKey работает в Spark. Предположим, у нас есть следующий код:
Spark RDD записать в глобальный список
Как записать в глобальный список с rdd?