Результаты поиска по запросу "apache-spark"

1 ответ

Оконные функции не поддерживают рекурсию, но здесь это не требуется. Этот тип сессионизации может быть легко обработан с накопленной суммой:

я есть следующие данные, показывающие доход от покупок. +-------+--------+-------+ |user_id|visit_id|revenue| +-------+--------+-------+ | 1| 1| 0| | 1| 2| 0| | 1| 3| 0| | 1| 4| 100| | 1| 5| 0| | 1| 6| 0| | 1| 7| 200| | 1| 8| 0| | 1| 9| 10| ...

0 ответов

Дата была разделом базы данных красного смещения - в этом случае она не должна требовать сортировки

ружаю большие наборы данных и затем кэширую их для справки по всему коду. Код выглядит примерно так: val conversations = sqlContext.read .format("com.databricks.spark.redshift") .option("url", jdbcUrl) .option("tempdir", ...

1 ответ

в

олчанию,spark_read_jdbc() читает всю таблицу базы данных в Spark. Я использовал следующий синтаксис для создания этих соединений. library(sparklyr) library(dplyr) config <- spark_config() config$`sparklyr.shell.driver-class-path` ...

ТОП публикаций

2 ответа

Наконец, вы можете удалить и переименовать:

я есть входной фрейм данных (ip_df), данные в этом кадре выглядят так, как показано ниже: id timestamp_value 1 2017-08-01T14:30:00+05:30 2 2017-08-01T14:30:00+06:30 3 2017-08-01T14:30:00+07:30Мне нужно создать новый фрейм данных (op_df), где мне ...

1 ответ

Это работает, спасибо. Но с точки зрения эффективности это может быть довольно дорого со списком словаря 40K.

ольно новичок в scala и spark, и я весь день пытался найти решение этой проблемы - я в этом разбираюсь. Я попробовал 20 различных вариантов следующего кода и продолжаю получатьtype mismatch ошибки, когда я пытаюсь выполнить вычисления ...

0 ответов

Кажется, с перерывами. Через некоторое время эта проблема исчезла там, где я был.

я собрал файл scala, используя IntelliJ IDEA, показалась следующая ошибка. Ошибка: scalac: неверная символьная ссылка. Подпись в SQLContext.class ссылается на тип ведения журнала в пакете org.apache.spark, который недоступен. Он может полностью ...

1 ответ

Когда вы используете неразрешенные столбцы, Spark определит правильные столбцы для вас.

тря на то, что я используюwithWatermark()Я получаю следующее сообщение об ошибке при запуске задания на искру: Исключение в потоке "main" org.apache.spark.sql.AnalysisException: добавление режима вывода не поддерживается при потоковой агрегации ...

1 ответ

Спасибо, сработало!

df <- data.frame(old1 = LETTERS, old2 = 1) df_tbl <- copy_to(sc,df,"df") df_tbl <- df_tbl %>% dplyr::rename(old1 = new1, old2 = new2)ащает: > head(df_tbl) Error: `new1`, `new2` contains unknown variablesЕсть ли простой способ изменить имена ...

1 ответ

Я хочу рассчитать разницу суммы за любые два месяца из таблицы.

дал фрейм данных в Spark по группам column1 и дате и рассчитал сумму. val table = df1.groupBy($"column1",$"date").sum("amount") Column1 |Date |Amount A |1-jul |1000 A |1-june |2000 A |1-May |2000 A |1-dec |3000 A |1-Nov |2000 B |1-jul |100 B ...

1 ответ

Какие существуют типы соединений в Spark?

dataframe 1 -: +------+-------+---------+----+---+-------+ |city |product|date |sale|exp|wastage| +------+-------+---------+----+---+-------+ |city 1|prod 1 |9/29/2017|358 |975|193 | |city 1|prod 2 |8/25/2017|50 |687|201 | |city 1|prod ...