Результаты поиска по запросу "apache-spark-sql"

1 ответ

Спасибо, это был Spark 2.2-балл-что-то. Похоже, это уже было «исправлено» в смысле выдачи сообщения об ошибке в ветке 2.3.

я есть работа Spark, написанная на Python, которая ведет себя странно при проверке ошибок в своих данных. Упрощенная версия ниже: from pyspark.sql import SparkSession from pyspark.sql.types import StringType, StructType, StructField, DoubleType ...

1 ответ

 значения автоматически. Я отредактировал ответ.

способ получить новый столбец во фрейме данных в Scala, который вычисляетmin/max значений вcol1, col2...,col10 для каждого ряда. Я знаю, что могу сделать это с помощью UDF, но, возможно, есть более простой способ. Спасибо!

3 ответа

да, но я делаю `select (" member_id ") в обоих случаях.

у я получаю разные результаты для..agg(countDistinct("member_id") as "count") а также..distinct.count? Разница такая же, как междуselect count(distinct member_id) а такжеselect distinct count(member_id)?

ТОП публикаций

2 ответа

В чем разница между SparkSession и SparkContext? [Дубликат]

На этот вопрос уже есть ответ: Разница между SparkContext, JavaSparkContext, SQLContext и SparkSession? [/questions/43802809/difference-between-sparkcontext-javasparkcontext-sqlcontext-and-sparksession] 3 ответа Я знаю только разницу в версии, ...

1 ответ

 не может быть преобразован в

ли конвертировать потоковоеo.a.s.sql.Dataset вDStream? Если так, то как? Я знаю, как преобразовать его в RDD, но это в контексте потоковой передачи.

2 ответа

Этот подход позволяет избежать ненужной реструктуризации RDD / фреймов данных.

рейма данных, содержащего сочетание строковых и числовых типов данных, целью является создание новогоfeatures столбец, который являетсяminhash из всех них. Хотя это можно сделать, выполнивdataframe.toRDD это дорого делать, когда следующим шагом ...

1 ответ

Или, если вы хотите добавить ровно 3 нуля впереди:

ел бы добавить строку в существующий столбец. Например,df['col1'] имеет значения как'1', '2', '3' и т. д., и я хотел бы согласовать строку'000' слева отcol1 так что я могу получить столбец (новый или заменить старый не имеет значения) как'0001', ...

1 ответ

) собрать необходимое количество строк.

ользую Spark 2.1.2. Я пытаюсь понять различные отображения вкладки пользовательского интерфейса искры по мере выполнения задания. я используюspark-shell --master local и делать следующееjoin запрос: val df = Seq( (55, "Canada", -1, "", 0), (77, ...

1 ответ

https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#streaming-deduplication

я возникают проблемы с памятью при работе структурированного потока с агрегацией и разбиением в Spark 2.2.0: session .readStream() .schema(inputSchema) .option(OPTION_KEY_DELIMITER, OPTION_VALUE_DELIMITER_TAB) ...

1 ответ

, Однако, это немного изменится в зависимости от типа столбца (здесь ваш столбец имени - это строка, а не структура). Если вы хотите получить более подробный ответ для своего варианта использования, я бы рекомендовал задать новый вопрос на сайте с дополнительной информацией (вы можете оставить ссылку в комментарии здесь).

я есть датафреймdf со следующей схемой: root |-- city_name: string (nullable = true) |-- person: struct (nullable = true) | |-- age: long (nullable = true) | |-- name: string (nullable = true)Что я хочу сделать, это добавить вложенный столбец, ...