Результаты поиска по запросу "spark-dataframe"

3 ответа

Спасибо Прем! Это действительно будет работать. Однако я понял, что это немного медленнее, чем хотелось бы, так как мы собираем данные для драйвера, а затем перепараллеливаем список с DataFrame. Прямо сейчас я предпочитаю подход оконной функции, предложенный. @Garren

то я хочу сделать, это дать DataFrame, взять верхние n элементов в соответствии с некоторым указанным столбцом. Вершина (self, num) в RDD API - это именно то, что я хочу. Интересно, есть ли в мире DataFrame эквивалентный API? Моя первая попытка ...

1 ответ

Дополнительное замечание для будущих читателей: если у вас нестандартный текст json, то все, что вы получите после использования этих функций, это NULL, поэтому проверьте недопустимые поля и предпочтите подход схемы, поскольку он работает как для двойных, так и для одинарных кавычек в схеме json.

я есть существующий фрейм данных Spark, который имеет столбцы как таковые: -------------------- pid | response -------------------- 12 | {"status":"200"} ответ является строковым столбцом. Есть ли способ привести его в JSON и извлечь конкретные ...

2 ответа

@ Бхарат Нет, это не закруглится. Для этого проверьте документы Spark на функцию округления или вы можете создать для нее отдельный UDF.

учаю ошибку: org.apache.spark.sql.analysisexception: cannot resolve 'year'Мои входные данные: 1,2012-07-21,2014-04-09Мой код: val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import ...

ТОП публикаций

2 ответа

stackoverflow.com/questions/48670551/...

раняю свой вывод данных в формате spark в виде csv-файла в scala с разделами. Вот как я это делаю вдирижабль. val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import org.apache.spark.{ SparkConf, ...

2 ответа

Спасибо за concat_ws !!

я есть входные данные, как показано ниже, с идентификатором, приложением и клиентом Входной фрейм данных +--------------------+-----+---------+ | id|app |customer | +--------------------+-----+---------+ |id1 | fw| WM | |id1 | fw| CS | |id2 ...

1 ответ

Вы должны преобразовать свой фрейм данных в rdd, чтобы применить этот метод.

риходится вычислять косинусное расстояние между каждой строкой, но я не знаю, как это сделать, используя элегантные кадры Spark API. Идея состоит в том, чтобы вычислить сходства для каждой строки (элемента) и взять 10 лучших сходств, сравнивая их ...

1 ответ

этот ответ

я есть следующие данные в фрейме данных pyspark под названиемend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BИ я хочу агрегировать это следующим образом: Я хочу ...

2 ответа

 - Спасибо! (это позволяет вам установить свой собственный идентификатор)

ок Е.С. Вопрос здесь Каков рабочий процесс или шаги для передачи Spark Dataframe в Elastic Search? Из исследований я считаю, что мне нужно использоватьspark.newAPIHadoopFile ...

2 ответа

https://issues.apache.org/jira/browse/SPARK-22442

аюсь прочитать файл JSON с искройDataset API, проблема в том, что этот json содержит пробелы в некоторых именах полей. Это будет ряд JSON {"Field Name" : "value"}Мой класс должен быть таким case class MyType(`Field Name`: String)Тогда я могу ...

1 ответ

Как мне задать хороший вопрос?

кли проблемы с получением функции округления в pyspar, k для работы - у меня есть блок кода ниже, где я пытаюсь округлитьnew_bid столбец с двумя десятичными разрядами и переименуйте столбец вbid потом - я импортируюpyspark.sql.functions AS func ...