Результаты поиска по запросу "spark-dataframe"
да, это работает, я хотел сначала опубликовать этот ответ, но думаю, что он не будет полным, потому что, если столбцы в df1 и df2 имеют разные имена?
ел бы динамически объединить два фрейма данных spark-scala в нескольких столбцах. Я бы хотел избежать жесткого сравнения имен столбцов, как показано в следую...
Дополнительное замечание для будущих читателей: если у вас нестандартный текст json, то все, что вы получите после использования этих функций, это NULL, поэтому проверьте недопустимые поля и предпочтите подход схемы, поскольку он работает как для двойных, так и для одинарных кавычек в схеме json.
я есть существующий фрейм данных Spark, который имеет столбцы как таковые: -------------------- pid | response -------------------- 12 | {"status":"200"} ответ является строковым столбцом. Есть ли способ привести его в JSON и извлечь конкретные ...
этот ответ
я есть следующие данные в фрейме данных pyspark под названиемend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BИ я хочу агрегировать это следующим образом: Я хочу ...
Вы должны преобразовать свой фрейм данных в rdd, чтобы применить этот метод.
риходится вычислять косинусное расстояние между каждой строкой, но я не знаю, как это сделать, используя элегантные кадры Spark API. Идея состоит в том, чтобы вычислить сходства для каждой строки (элемента) и взять 10 лучших сходств, сравнивая их ...
Как мне задать хороший вопрос?
кли проблемы с получением функции округления в pyspar, k для работы - у меня есть блок кода ниже, где я пытаюсь округлитьnew_bid столбец с двумя десятичными разрядами и переименуйте столбец вbid потом - я импортируюpyspark.sql.functions AS func ...
ты можешь:
ичок в SparkSQL / Scala и борюсь с парой, казалось бы, простых задач. Я пытаюсь создать динамический SQL из Scala String Array. Я пытаюсь повторно напечатать некоторые столбцы в моем DataFrame, но я не буду точно знать, что мне нужно ...
во втором окне см. обновление
ужно выполнить описанную ниже операцию с кадрами данных, используя оконную функцию Lag and Lead. Для каждого ключа мне нужно выполнить приведенную ниже вставку и обновить в окончательном выводе Введите условие: 1. По умолчанию LAYER_NO = 0 ...