Результаты поиска по запросу "pyspark"

1 ответ

https://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.Column.substr

способ получить последний символ из строки в столбце данных и поместить его в другой столбец. У меня есть Spark Dataframe, который выглядит следующим образом: animal ====== cat mouse snakeЯ хочу что-то вроде этого: lastchar ======== t e ...

0 ответов

ghostbin.com/paste/wt5y6

ы можем изменить тип данных вложенного столбца в Pyspark? Например, как я могу изменить тип данных значения со строки на int? Ссылка:как изменить столбец Dataframe с типа String на тип Double в ...

1 ответ

 - максимально допустимая ошибка оценки, которая позволяет настроить компромисс между точностью и производительностью.

сто попытался сделать countDistinct над окном и получил эту ошибку: AnalysisException: u'Distinct window functions are not supported: count(distinct color#1926)Есть ли способ сделать четкий подсчет за окном в pyspark? Вот пример кода: from ...

ТОП публикаций

1 ответ

Из метаданных преобразованного

ользуюSpark а такжеpyspark и у меня естьpipeline настроить с кучейStringIndexer объекты, которые я использую для кодирования строковых столбцов в столбцы индексов: indexers = [StringIndexer(inputCol=column, outputCol=column ...

1 ответ

getItem требует строковых литералов, так как позиции в столбцах типа массива именуются динамически, как _1 и _2

я есть: key value a [1,2,3] b [2,3,4]Я хочу: key value1 value2 value3 a 1 2 3 b 2 3 4Кажется, что в Scala я могу написать:df.select($"value._1", $"value._2", $"value._3"), но это невозможно в python. Так есть ли хороший способ сделать это?

3 ответа

Спасибо Прем! Это действительно будет работать. Однако я понял, что это немного медленнее, чем хотелось бы, так как мы собираем данные для драйвера, а затем перепараллеливаем список с DataFrame. Прямо сейчас я предпочитаю подход оконной функции, предложенный. @Garren

то я хочу сделать, это дать DataFrame, взять верхние n элементов в соответствии с некоторым указанным столбцом. Вершина (self, num) в RDD API - это именно то, что я хочу. Интересно, есть ли в мире DataFrame эквивалентный API? Моя первая попытка ...

2 ответа

Результатом являются значения между 2016-10-01 и 2017-04-01.

кто-нибудь объяснить мне, почему я получаю разные результаты для этих двух выражений? Я пытаюсь отфильтровать 2 даты: df.filter("act_date <='2017-04-01'" and "act_date >='2016-10-01'")\ .select("col1","col2").distinct().count()Результат: ...

1 ответ

, например:

я есть Dataframe, который я хочу использовать для прогнозирования с существующей моделью. Я получаю сообщение об ошибке при использовании метода преобразования моей модели. Вот как я обрабатываю данные обучения. forecast.printSchema()Схема ...

3 ответа

 если хочешь. Очевидно, что он не может пережить родительский переводчик, над которым вы не имеете никакого контроля. В противном случае вы можете легко добавить ведение журнала и использовать отладчик, чтобы увидеть, что инициализация применяется только при первом вызове.

апуске следующего фрагмента кода PySpark: nlp = NLPFunctions() def parse_ingredients(ingredient_lines): parsed_ingredients = nlp.getingredients_bulk(ingredient_lines)[0] return list(chain.from_iterable(parsed_ingredients)) udf_parse_ingredients ...

1 ответ

 колонка, чтобы сделать это более понятным.

м, у меня есть следующие данные: {"id":1, "payload":[{"foo":1, "lol":2},{"foo":2, "lol":2}]}Я хотел бы взорвать полезную нагрузку и добавить столбец, например: df = df.select('id', F.explode('payload').alias('data')) df ...