Результаты поиска по запросу "apache-spark-sql"
После исправления эта проблема исчезла.
ыло несколько SO статей оHive/Hadoop Ошибка «Невозможно переместить источник». Многие из них указывают на проблему с разрешениями. Тем не менее, на моем сайте я увидел ту же ошибку, но я совершенно уверен, что это не связано с проблемой ...
Я надеюсь, что ответ полезен
я есть ниже XML, который я пытаюсь загрузить, чтобы зажечь фрейм данных. <?xml version="1.0"?> <env:ContentEnvelope xsi:schemaLocation="http"> <env:Header> ...
):
я есть метка времени в UTC и ISO8601, но при использовании структурированной потоковой передачи она автоматически конвертируется в местное время. Есть ли способ остановить это преобразование? Я хотел бы иметь это в UTC. Я читаю данные JSON от ...
который принимает только одно имя столбца за раз. Вы знаете об обходном пути?
ли создать UDF, который будет возвращать набор столбцов? То есть имея фрейм данных следующим образом: | Feature1 | Feature2 | Feature 3 | | 1.3 | 3.4 | 4.5 |Теперь я хотел бы извлечь новую особенность, которую можно описать как вектор, скажем, ...
Вы можете объединить ваши требования к фильтрации, некоторые примеры ниже:
отаю над фреймом данных, созданным JSON, а затем хочу применить условие фильтра к фрейму данных. val jsonStr = """{ "metadata": [{ "key": 84896, "value": 54 },{ "key": 1234, "value": 12 }]}""" val rdd = sc.parallelize(Seq(jsonStr)) val df ...
https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#streaming-deduplication
я возникают проблемы с памятью при работе структурированного потока с агрегацией и разбиением в Spark 2.2.0: session .readStream() .schema(inputSchema) .option(OPTION_KEY_DELIMITER, OPTION_VALUE_DELIMITER_TAB) ...
) собрать необходимое количество строк.
ользую Spark 2.1.2. Я пытаюсь понять различные отображения вкладки пользовательского интерфейса искры по мере выполнения задания. я используюspark-shell --master local и делать следующееjoin запрос: val df = Seq( (55, "Canada", -1, "", 0), (77, ...
Да, это работает, спасибо! попробуйте это: df.select ("` "+ col_name +" `") .show ()
я есть датафреймdf который имеет эту схему: root |-- person.name: string (nullable = true) |-- person: struct (nullable = true) | |-- age: long (nullable = true) | |-- name: string (nullable = true) Когда я делаюdf.select("person.name") Я явно ...
, Однако, это немного изменится в зависимости от типа столбца (здесь ваш столбец имени - это строка, а не структура). Если вы хотите получить более подробный ответ для своего варианта использования, я бы рекомендовал задать новый вопрос на сайте с дополнительной информацией (вы можете оставить ссылку в комментарии здесь).
я есть датафреймdf со следующей схемой: root |-- city_name: string (nullable = true) |-- person: struct (nullable = true) | |-- age: long (nullable = true) | |-- name: string (nullable = true)Что я хочу сделать, это добавить вложенный столбец, ...
Или, если вы хотите добавить ровно 3 нуля впереди:
ел бы добавить строку в существующий столбец. Например,df['col1'] имеет значения как'1', '2', '3' и т. д., и я хотел бы согласовать строку'000' слева отcol1 так что я могу получить столбец (новый или заменить старый не имеет значения) как'0001', ...