Результаты поиска по запросу "rdd"

1 ответ

это именно то, что вы получаете в вашем случае. Другими словами, отсутствие прямой коллизии хешей не гарантирует отсутствие коллизии по модулю произвольного числа.

ользую

2 ответа

val sparkSession = SparkSession.builder (). enableHiveSupport (). getOrCreate ()

разница между

1 ответ

 Как вы проверяете результаты? Каковы ваши ожидания? Что вы получаете вместо этого?

я есть набор данных (как

ТОП публикаций

3 ответа

Привет, я разместил свое решение. :)

жил JSON и хотел бы иметь вывод в табличной структуре. Я могу анализировать значения JSON по отдельности, но у меня возникли некоторые проблемы с его табулир...

1 ответ

Это замечательно :)

0 ответов

спасибо за любую помощь в решении этой проблемы

аюсь использовать искровое разделение. Я пытался сделать что-то вроде data.write.partitionBy("key").parquet("/location")Проблема здесь в каждом разделе создает огромное количество паркетных файлов, что приводит к медленному чтению, если я ...

0 ответов

 и уверен, что вы знаете, что делаете при изменении кода: ваше редактирование испортило совершенно хороший ответ, в результате чего возникло исключение (восстановленное в оригинале OP) ...

я есть фрейм данных со следующим типом col1|col2|col3|col4 xxxx|yyyy|zzzz|[1111],[2222]Я хочу, чтобы мой вывод был следующего типа col1|col2|col3|col4|col5 xxxx|yyyy|zzzz|1111|2222Мой col4 является массивом, и я хочу преобразовать его в ...

0 ответов

stackoverflow.com/questions/47867743/...

аюсь отфильтровать данные файла в хорошие и плохие данные за дату, поэтому получу 2 файла результатов. Из тестового файла первые 4 строки должны идти в хороших данных и последние 2 строки в плохих данных. У меня 2 вопроса Я не получаю хорошие ...

1 ответ

Отличный ответ не очень хорошо рассматривается в стандартном тексте!

удет с большими файлами в этих случаях? 1) Spark получает местоположение от NameNode для данных. Остановится ли Spark в это же время, потому что размер данных слишком велик согласно информации из NameNode? 2) Spark делает разделение данных в ...

3 ответа

Ответы у вас с Алексом самые лучшие - им не нужно группировать каждый элемент разбиения на одном узле

я есть проблема с Spark Scala, которую я хочу посчитать среднее из данных Rdd, я создаю новый RDD, как это, [(2,110),(2,130),(2,120),(3,200),(3,206),(3,206),(4,150),(4,160),(4,170)]Я хочу считать их ...