Результаты поиска по запросу "spark-dataframe"

1 ответ

Это даст вам ожидаемый результат.

1 ответ

 тоже работает.

1 ответ

да, это работает, я хотел сначала опубликовать этот ответ, но думаю, что он не будет полным, потому что, если столбцы в df1 и df2 имеют разные имена?

ел бы динамически объединить два фрейма данных spark-scala в нескольких столбцах. Я бы хотел избежать жесткого сравнения имен столбцов, как показано в следую...

ТОП публикаций

1 ответ

 хотя - я перебрал массив заголовков CSV.

1 ответ

Дополнительное замечание для будущих читателей: если у вас нестандартный текст json, то все, что вы получите после использования этих функций, это NULL, поэтому проверьте недопустимые поля и предпочтите подход схемы, поскольку он работает как для двойных, так и для одинарных кавычек в схеме json.

я есть существующий фрейм данных Spark, который имеет столбцы как таковые: -------------------- pid | response -------------------- 12 | {"status":"200"} ответ является строковым столбцом. Есть ли способ привести его в JSON и извлечь конкретные ...

1 ответ

этот ответ

я есть следующие данные в фрейме данных pyspark под названиемend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BИ я хочу агрегировать это следующим образом: Я хочу ...

1 ответ

Вы должны преобразовать свой фрейм данных в rdd, чтобы применить этот метод.

риходится вычислять косинусное расстояние между каждой строкой, но я не знаю, как это сделать, используя элегантные кадры Spark API. Идея состоит в том, чтобы вычислить сходства для каждой строки (элемента) и взять 10 лучших сходств, сравнивая их ...

1 ответ

Как мне задать хороший вопрос?

кли проблемы с получением функции округления в pyspar, k для работы - у меня есть блок кода ниже, где я пытаюсь округлитьnew_bid столбец с двумя десятичными разрядами и переименуйте столбец вbid потом - я импортируюpyspark.sql.functions AS func ...

1 ответ

 ты можешь:

ичок в SparkSQL / Scala и борюсь с парой, казалось бы, простых задач. Я пытаюсь создать динамический SQL из Scala String Array. Я пытаюсь повторно напечатать некоторые столбцы в моем DataFrame, но я не буду точно знать, что мне нужно ...

1 ответ

 во втором окне см. обновление

ужно выполнить описанную ниже операцию с кадрами данных, используя оконную функцию Lag and Lead. Для каждого ключа мне нужно выполнить приведенную ниже вставку и обновить в окончательном выводе Введите условие: 1. По умолчанию LAYER_NO = 0 ...