Результаты поиска по запросу "apache-spark-sql"

2 ответа

 Модификация POM.xml помогла мне.

ользую HDP-2.6.3.0 с пакетом Spark2 2.2.0. Я пытаюсь написать потребителя Kafka, используя API-интерфейс Structured Streaming, но получаю следующую ошибку после отправки задания в кластер: Exception in thread "main" ...

2 ответа

 читатель и использовать пользовательскую логику, чтобы подтолкнуть выбор столбца непосредственно в процессе анализа. С псевдокодом:

аюсь добавить новый столбец вDataFrame, Значением этого столбца является значение другого столбца, имя которого зависит от других столбцов из того жеDataFrame. Например, учитывая это: +---+---+----+----+ | A| B| A_1| B_2| +---+---+----+----+ | ...

1 ответ

В то же время я увидел, что принятый ответ на вопрос, который дублирует этот, говорит точно так же, как и я, поэтому я склонен согласиться с ответчиком, что этот ответ является ошибочным для партии.

от вопрос уже есть ответ здесь: Как выбрать первый ряд каждой группы? [/questions/33878370/how-to-select-the-first-row-of-each-group] 8 ответовУ меня есть следующий DataFramedf: Как я могу удалить дубликаты, сохраняя при этом минимальное ...

ТОП публикаций

1 ответ

 во втором окне см. обновление

ужно выполнить описанную ниже операцию с кадрами данных, используя оконную функцию Lag and Lead. Для каждого ключа мне нужно выполнить приведенную ниже вставку и обновить в окончательном выводе Введите условие: 1. По умолчанию LAYER_NO = 0 ...

1 ответ

и извлечь:

чномstructured_kafka_wordcount.py [https://gist.github.com/hrchu/2b2590f2f737ef430ac32b7f8edc15c0]код, Когда я делю строки на словаudf как ниже, my_split = udf(lambda x: x.split(' '), ArrayType(StringType())) words = lines.select( explode( ...

1 ответ

Вы можете использовать следующее, чтобы сгладить структуру. Explode не работает для struct, так как сообщения об ошибках.

я есть датафрейм, схема которого выглядит следующим образом: event: struct (nullable = true) | | event_category: string (nullable = true) | | event_name: string (nullable = true) | | properties: struct (nullable = true) | | | ErrorCode: string ...

1 ответ

 не останется безнаказанным

но я увидел странное поведение Спарка. В моем приложении есть конвейер, в котором я манипулирую одним большим набором данных - псевдокодом: val data = spark.read (...) data.join(df1, "key") //etc, more transformations data.cache(); // used to ...

1 ответ

Спасибо, ты сделал мой день. Решение абсолютно идеальное, и я могу хранить переменные, используя метод collect вместо show ().

я есть требование, где мне нужно подсчитать количество повторяющихся строк в SparkSQL для таблиц Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import Row ...

1 ответ

Подход, показанный в связанном посте, показывает, как обобщить это для произвольных преобразований.

оложим, у меня есть следующий spark-dataframe: +-----+-------+ | word| label| +-----+-------+ | red| color| | red| color| | blue| color| | blue|feeling| |happy|feeling| +-----+-------+Который может быть создан с использованием следующего ...

4 ответа

 доступно из

ратил немало времени, читая некоторые вопросы сpyspark [/questions/tagged/pyspark]а такжеискровым dataframe [/questions/tagged/spark-dataframe]теги и очень часто я обнаруживаю, что постеры не предоставляют достаточно информации, чтобы ...