Результаты поиска по запросу "apache-spark-sql"

1 ответ

Вы должны создать свою собственную функцию для анализа этих данных. Грубая идея:

ли способ преобразовать значение метки времени с нано секундами в метку времени в искре. Я получаю данные из CSV-файла, а значение timstamp имеет формат12-12-2015 14:09:36.992415+01:00, Это код, который я пробовал. val date_raw_data = List((1, ...

1 ответ

спасибо @ user6910411

я есть дата столбец в моем SparkDataDrame который содержит несколько форматов строк. Я хотел бы привести их к DateTime. Два формата в моей колонке: mm/dd/yyyy; а такжеyyyy-mm-ddМое решение до сих пор состоит в том, чтобы использовать UDF для ...

2 ответа

 - Спасибо! (это позволяет вам установить свой собственный идентификатор)

ок Е.С. Вопрос здесь Каков рабочий процесс или шаги для передачи Spark Dataframe в Elastic Search? Из исследований я считаю, что мне нужно использоватьspark.newAPIHadoopFile ...

ТОП публикаций

2 ответа

Вы можете «отключить» неявное с помощью следующего трюка и попробовать вышеприведенное выражение (что приведет к ошибке).

ользую Spark 2.2 и сталкиваюсь с проблемами при попытке позвонитьspark.createDataset наSeq изMap. Код и вывод из моего сеанса Spark Shell следующие: // createDataSet on Seq[T] where T = Int works scala> spark.createDataset(Seq(1, 2, 3)).collect ...

2 ответа

Я не установил для master значение local [n], но получил то же исключение.

от вопрос уже есть ответ здесь: Почему не удается присоединиться к «java.util.concurrent.TimeoutException: время ожидания фьючерса истекло после [300 ...

3 ответа

 для более подробной информации.

ел бы рассчитать групповые квантили на фрейме данных Spark (используя PySpark). Либо приблизительный или точный результат будет в порядке. Я предпочитаю решение, которое я могу использовать в контекстеgroupBy / agg, так что я могу смешать его с ...

1 ответ

Высокоэффективная Искра Рэйчел Уоррен, Холден Карау - Глава 4

аюсь получить последние записи из таблицы с помощью самостоятельного соединения. Работает с использованиемspark-sql но не работает с использованием искрыDataFrame API. Кто-нибудь может помочь? Это ошибка? Я использую Spark 2.2.0 в локальном ...

1 ответ

Как мне задать хороший вопрос?

кли проблемы с получением функции округления в pyspar, k для работы - у меня есть блок кода ниже, где я пытаюсь округлитьnew_bid столбец с двумя десятичными разрядами и переименуйте столбец вbid потом - я импортируюpyspark.sql.functions AS func ...

2 ответа

да, но проблема в том, что все данные из cogroup попали в узел драйвера

я дваrdd's а именноval tab_a: RDD[(String, String)] а такжеval tab_b: RDD[(String, String)] я используюcogroup для таких наборов данных, как: val tab_c = tab_a.cogroup(tab_b).collect.toArray val updated = tab_c.map { x => { //somecode } }я ...

2 ответа

, Вы не можете использовать фрейм данных в трансформации, фреймы данных существуют только в драйвере.

я предоставляю свой код. Я перебираю DataFrameprodRows и для каждогоproduct_PK Я нахожу соответствующий подсписок product_PKs изprodRows. numRecProducts = 10 var listOfProducts: Map[Long,Array[(Long, Int)]] = Map() prodRows.foreach{ row : Row => ...