Результаты поиска по запросу "apache-spark-sql"

1 ответ

Я хочу рассчитать разницу суммы за любые два месяца из таблицы.

дал фрейм данных в Spark по группам column1 и дате и рассчитал сумму. val table = df1.groupBy($"column1",$"date").sum("amount") Column1 |Date |Amount A |1-jul |1000 A |1-june |2000 A |1-May |2000 A |1-dec |3000 A |1-Nov |2000 B |1-jul |100 B ...

0 ответов

Затем вы можете отсортировать столбец «Группа» в любом порядке. Приведенное выше решение почти имеет его, но важно помнить, что row_number начинается с 1, а не с 0.

ьзуя pyspark, я хотел бы иметь возможность сгруппировать фрейм данных spark, отсортировать группу, а затем указать номер строки. Так Group Date A 2000 A 2002 A 2007 B 1999 B 2015Станет Group Date row_num A 2000 0 A 2002 1 A 2007 2 B 1999 0 B 2015 1

1 ответ

https://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.Column.substr

способ получить последний символ из строки в столбце данных и поместить его в другой столбец. У меня есть Spark Dataframe, который выглядит следующим образом: animal ====== cat mouse snakeЯ хочу что-то вроде этого: lastchar ======== t e ...

ТОП публикаций

0 ответов

Предположим, у нас есть 9 цифр после десятичной дроби, нам действительно нужно указать

ичок в Spark SQL и пытаюсь преобразовать строку во временную метку во фрейме данных spark. У меня есть строка, которая выглядит как'2017-08-01T02:26:59.000Z' в столбце с именем time_string Мой код для преобразования этой строки в метку ...

0 ответов

 используется для определения разделов задач фреймворка. обычно применяется для операций RDD.

разница междуspark.sql.shuffle.partitions а такжеspark.default.parallelism? Я пытался установить их обоих вSparkSQL, но номер задачи второго этапа всегда 200.

1 ответ

getItem требует строковых литералов, так как позиции в столбцах типа массива именуются динамически, как _1 и _2

я есть: key value a [1,2,3] b [2,3,4]Я хочу: key value1 value2 value3 a 1 2 3 b 2 3 4Кажется, что в Scala я могу написать:df.select($"value._1", $"value._2", $"value._3"), но это невозможно в python. Так есть ли хороший способ сделать это?

0 ответов

можешь выложить рабочий код ..

ужно извлечь таблицу из Teradata (доступ только для чтения) для паркета с Scala (2.11) / Spark (2.1.0). Я строю фрейм данных, который я могу успешно загрузить val df = spark.read.format("jdbc").options(options).load()Ноdf.show дает ...

2 ответа

Результатом являются значения между 2016-10-01 и 2017-04-01.

кто-нибудь объяснить мне, почему я получаю разные результаты для этих двух выражений? Я пытаюсь отфильтровать 2 даты: df.filter("act_date <='2017-04-01'" and "act_date >='2016-10-01'")\ .select("col1","col2").distinct().count()Результат: ...

1 ответ

Да, я мог бы просто сделать это после того, как потрачу некоторое время на решение проблемы.

ифицирую существующий код для использования Spark. У меня есть несколько фреймов данных, которые содержат разные наборы данных. При преобразовании моего основного фрейма данных (или моего основного набора данных) мне нужно использовать данные из ...

4 ответа

https://issues.apache.org/jira/browse/SPARK-17817

у проверить, как мы можем получить информацию о каждом разделе, например, общее нет. записей в каждом разделе на стороне водителя, когда задание Spark отправляется в режиме развертывания в виде кластера пряжи для регистрации или печати на консоли.