Результаты поиска по запросу "apache-spark"

3 ответа

Спасибо Прем! Это действительно будет работать. Однако я понял, что это немного медленнее, чем хотелось бы, так как мы собираем данные для драйвера, а затем перепараллеливаем список с DataFrame. Прямо сейчас я предпочитаю подход оконной функции, предложенный. @Garren

то я хочу сделать, это дать DataFrame, взять верхние n элементов в соответствии с некоторым указанным столбцом. Вершина (self, num) в RDD API - это именно то, что я хочу. Интересно, есть ли в мире DataFrame эквивалентный API? Моя первая попытка ...

1 ответ

Да, я мог бы просто сделать это после того, как потрачу некоторое время на решение проблемы.

ифицирую существующий код для использования Spark. У меня есть несколько фреймов данных, которые содержат разные наборы данных. При преобразовании моего основного фрейма данных (или моего основного набора данных) мне нужно использовать данные из ...

3 ответа

проверьте пример кода, который я написал показать ниже

ами просматривал видео и учебники You Tube, пытаясь понять, как запустить программу подсчета слов для Spark в Scala и превратить ее в файл jar. Я сейчас совершенно запутался. У меня запущен Hello World, и я узнал о переходе в библиотеки для ...

ТОП публикаций

1 ответ

, например:

я есть Dataframe, который я хочу использовать для прогнозирования с существующей моделью. Я получаю сообщение об ошибке при использовании метода преобразования моей модели. Вот как я обрабатываю данные обучения. forecast.printSchema()Схема ...

2 ответа

Это держит. Порядок пунктов в шаблоне соответствия, который вы связали, не имеет значения.

ользую Spark 2.2.0 Я читаю CSV-файл следующим образом: val dataFrame = spark.read.option("inferSchema", "true") .option("header", true) .option("dateFormat", "yyyyMMdd") .csv(pathToCSVFile)В этом файле есть один столбец даты, и все записи имеют ...

1 ответ

 колонка, чтобы сделать это более понятным.

м, у меня есть следующие данные: {"id":1, "payload":[{"foo":1, "lol":2},{"foo":2, "lol":2}]}Я хотел бы взорвать полезную нагрузку и добавить столбец, например: df = df.select('id', F.explode('payload').alias('data')) df ...

2 ответа

в случае text / json, если мой потоковый конвейер не работает, как новый потоковый конвейер знает, с чего начать использовать файлы?

у, чтобы spark постоянно отслеживал каталог и читал файлы CSV, используяspark.readStream как только файл появится в этом каталоге. Пожалуйста, не включайте решение Spark Streaming. Я ищу способ сделать это с помощью искровой структурированной ...

1 ответ

https://github.com/Hydrospheredata/hydro-serving

от вопрос уже есть ответ здесь: Как обслуживать модель Spark MLlib? [/questions/40533582/how-to-serve-a-spark-mllib-model] 3 ответаВ настоящее время мы тестируем механизм прогнозирования, основанный на реализации LDA Spark ...

1 ответ

 ты можешь пропустить

ользую набор данных Spark и у меня возникают проблемы с вычитанием дней из столбца меток времени. Я хотел бы вычесть дни из столбца Timestamp и получить новый столбец с полным форматом даты и времени. Пример: 2017-09-22 13:17:39.900 - 10 ----> ...

1 ответ

Отличный ответ не очень хорошо рассматривается в стандартном тексте!

удет с большими файлами в этих случаях? 1) Spark получает местоположение от NameNode для данных. Остановится ли Spark в это же время, потому что размер данных слишком велик согласно информации из NameNode? 2) Spark делает разделение данных в ...