Результаты поиска по запросу "apache-spark-sql"
Спасибо, это был Spark 2.2-балл-что-то. Похоже, это уже было «исправлено» в смысле выдачи сообщения об ошибке в ветке 2.3.
я есть работа Spark, написанная на Python, которая ведет себя странно при проверке ошибок в своих данных. Упрощенная версия ниже: from pyspark.sql import SparkSession from pyspark.sql.types import StringType, StructType, StructField, DoubleType ...
значения автоматически. Я отредактировал ответ.
способ получить новый столбец во фрейме данных в Scala, который вычисляетmin/max значений вcol1, col2...,col10 для каждого ряда. Я знаю, что могу сделать это с помощью UDF, но, возможно, есть более простой способ. Спасибо!
да, но я делаю `select (" member_id ") в обоих случаях.
у я получаю разные результаты для..agg(countDistinct("member_id") as "count") а также..distinct.count? Разница такая же, как междуselect count(distinct member_id) а такжеselect distinct count(member_id)?
В чем разница между SparkSession и SparkContext? [Дубликат]
На этот вопрос уже есть ответ: Разница между SparkContext, JavaSparkContext, SQLContext и SparkSession? [/questions/43802809/difference-between-sparkcontext-javasparkcontext-sqlcontext-and-sparksession] 3 ответа Я знаю только разницу в версии, ...
не может быть преобразован в
ли конвертировать потоковоеo.a.s.sql.Dataset вDStream? Если так, то как? Я знаю, как преобразовать его в RDD, но это в контексте потоковой передачи.
Этот подход позволяет избежать ненужной реструктуризации RDD / фреймов данных.
рейма данных, содержащего сочетание строковых и числовых типов данных, целью является создание новогоfeatures столбец, который являетсяminhash из всех них. Хотя это можно сделать, выполнивdataframe.toRDD это дорого делать, когда следующим шагом ...
Или, если вы хотите добавить ровно 3 нуля впереди:
ел бы добавить строку в существующий столбец. Например,df['col1'] имеет значения как'1', '2', '3' и т. д., и я хотел бы согласовать строку'000' слева отcol1 так что я могу получить столбец (новый или заменить старый не имеет значения) как'0001', ...
) собрать необходимое количество строк.
ользую Spark 2.1.2. Я пытаюсь понять различные отображения вкладки пользовательского интерфейса искры по мере выполнения задания. я используюspark-shell --master local и делать следующееjoin запрос: val df = Seq( (55, "Canada", -1, "", 0), (77, ...
https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#streaming-deduplication
я возникают проблемы с памятью при работе структурированного потока с агрегацией и разбиением в Spark 2.2.0: session .readStream() .schema(inputSchema) .option(OPTION_KEY_DELIMITER, OPTION_VALUE_DELIMITER_TAB) ...
, Однако, это немного изменится в зависимости от типа столбца (здесь ваш столбец имени - это строка, а не структура). Если вы хотите получить более подробный ответ для своего варианта использования, я бы рекомендовал задать новый вопрос на сайте с дополнительной информацией (вы можете оставить ссылку в комментарии здесь).
я есть датафреймdf со следующей схемой: root |-- city_name: string (nullable = true) |-- person: struct (nullable = true) | |-- age: long (nullable = true) | |-- name: string (nullable = true)Что я хочу сделать, это добавить вложенный столбец, ...