жил JSON и хотел бы иметь вывод в табличной структуре. Я могу анализировать значения JSON по отдельности, но у меня возникли некоторые проблемы с его табулир...

apache-spark dataframe scala

1 ответ

Это замечательно :)

apache-spark-2.0 spark-dataframe bigdata apache-spark

0 ответов

спасибо за любую помощь в решении этой проблемы

аюсь использовать искровое разделение. Я пытался сделать что-то вроде data.write.partitionBy("key").parquet("/location")Проблема здесь в каждом разделе создает огромное количество паркетных файлов, что приводит к медленному чтению, если я ...

python apache-spark pyspark

0 ответов

и уверен, что вы знаете, что делаете при изменении кода: ваше редактирование испортило совершенно хороший ответ, в результате чего возникло исключение (восстановленное в оригинале OP) ...

apache-spark scala

0 ответов

stackoverflow.com/questions/47867743/...

аюсь отфильтровать данные файла в хорошие и плохие данные за дату, поэтому получу 2 файла результатов. Из тестового файла первые 4 строки должны идти в хороших данных и последние 2 строки в плохих данных. У меня 2 вопроса Я не получаю хорошие ...

apache-spark partition

1 ответ

Отличный ответ не очень хорошо рассматривается в стандартном тексте!

удет с большими файлами в этих случаях? 1) Spark получает местоположение от NameNode для данных. Остановится ли Spark в это же время, потому что размер данных слишком велик согласно информации из NameNode? 2) Spark делает разделение данных в ...

scala apache-spark

3 ответа

Ответы у вас с Алексом самые лучшие - им не нужно группировать каждый элемент разбиения на одном узле

я есть проблема с Spark Scala, которую я хочу посчитать среднее из данных Rdd, я создаю новый RDD, как это, [(2,110),(2,130),(2,120),(3,200),(3,206),(3,206),(4,150),(4,160),(4,170)]Я хочу считать их ...

Страница 11 из 12

8 9 101112

Вы очень активны! Это здорово!

Результаты поиска по запросу "rdd"

Популярные теги

ТОП публикаций