Результаты поиска по запросу "apache-spark-sql"
Модификация POM.xml помогла мне.
ользую HDP-2.6.3.0 с пакетом Spark2 2.2.0. Я пытаюсь написать потребителя Kafka, используя API-интерфейс Structured Streaming, но получаю следующую ошибку после отправки задания в кластер: Exception in thread "main" ...
читатель и использовать пользовательскую логику, чтобы подтолкнуть выбор столбца непосредственно в процессе анализа. С псевдокодом:
аюсь добавить новый столбец вDataFrame, Значением этого столбца является значение другого столбца, имя которого зависит от других столбцов из того жеDataFrame. Например, учитывая это: +---+---+----+----+ | A| B| A_1| B_2| +---+---+----+----+ | ...
В то же время я увидел, что принятый ответ на вопрос, который дублирует этот, говорит точно так же, как и я, поэтому я склонен согласиться с ответчиком, что этот ответ является ошибочным для партии.
от вопрос уже есть ответ здесь: Как выбрать первый ряд каждой группы? [/questions/33878370/how-to-select-the-first-row-of-each-group] 8 ответовУ меня есть следующий DataFramedf: Как я могу удалить дубликаты, сохраняя при этом минимальное ...
во втором окне см. обновление
ужно выполнить описанную ниже операцию с кадрами данных, используя оконную функцию Lag and Lead. Для каждого ключа мне нужно выполнить приведенную ниже вставку и обновить в окончательном выводе Введите условие: 1. По умолчанию LAYER_NO = 0 ...
и извлечь:
чномstructured_kafka_wordcount.py [https://gist.github.com/hrchu/2b2590f2f737ef430ac32b7f8edc15c0]код, Когда я делю строки на словаudf как ниже, my_split = udf(lambda x: x.split(' '), ArrayType(StringType())) words = lines.select( explode( ...
Вы можете использовать следующее, чтобы сгладить структуру. Explode не работает для struct, так как сообщения об ошибках.
я есть датафрейм, схема которого выглядит следующим образом: event: struct (nullable = true) | | event_category: string (nullable = true) | | event_name: string (nullable = true) | | properties: struct (nullable = true) | | | ErrorCode: string ...
не останется безнаказанным
но я увидел странное поведение Спарка. В моем приложении есть конвейер, в котором я манипулирую одним большим набором данных - псевдокодом: val data = spark.read (...) data.join(df1, "key") //etc, more transformations data.cache(); // used to ...
Спасибо, ты сделал мой день. Решение абсолютно идеальное, и я могу хранить переменные, используя метод collect вместо show ().
я есть требование, где мне нужно подсчитать количество повторяющихся строк в SparkSQL для таблиц Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import Row ...
Подход, показанный в связанном посте, показывает, как обобщить это для произвольных преобразований.
оложим, у меня есть следующий spark-dataframe: +-----+-------+ | word| label| +-----+-------+ | red| color| | red| color| | blue| color| | blue|feeling| |happy|feeling| +-----+-------+Который может быть создан с использованием следующего ...
доступно из
ратил немало времени, читая некоторые вопросы сpyspark [/questions/tagged/pyspark]а такжеискровым dataframe [/questions/tagged/spark-dataframe]теги и очень часто я обнаруживаю, что постеры не предоставляют достаточно информации, чтобы ...