Результаты поиска по запросу "pyspark"

0 ответов

Это не относится здесь. Это специфический для pyspark.

таем данные из MongoDBCollection. Collection столбец имеет два разных значения (например,(bson.Int64,int) (int,float) ). Я пытаюсь получить тип данных, используя pyspark. Моя проблема в том, что некоторые столбцы имеют разные типы ...

1 ответ

 метод.

у меня есть некоторые данные, которые я передаю в теме Кафки, я беру эти потоковые данные и помещаю их вDataFrame, Я хочу отобразить данные внутри DataFrame: import os from kafka import KafkaProducer from pyspark.sql import ...

0 ответов

 входной набор данных, чтобы избежать двойного сканирования, т.е.

ужно развернуть более одного столбца в кадре данных pyspark. Примерный фрейм данных, >>> d ...

ТОП публикаций

2 ответа

 функция в сочетании с

я есть датафрейм Pyspark (Исходный кадр данных) с данными ниже (все столбцы имеютстрокатип данных): id Value 1 103 2 1504 3 1Мне нужно создать новыймодифицированный фрейм данныхс участиемнабивкавстоимость столбец, так что длина этого столбца ...

0 ответов

 и уверен, что вы знаете, что делаете при изменении кода: ваше редактирование испортило совершенно хороший ответ, в результате чего возникло исключение (восстановленное в оригинале OP) ...

я есть фрейм данных со следующим типом col1|col2|col3|col4 xxxx|yyyy|zzzz|[1111],[2222]Я хочу, чтобы мой вывод был следующего типа col1|col2|col3|col4|col5 xxxx|yyyy|zzzz|1111|2222Мой col4 является массивом, и я хочу преобразовать его в ...

2 ответа

 функция:

я есть датафрейм с этими столбцамиid, price, timestamp. Я хотел бы найти среднее значение сгруппированы поid. Я использую этот код, чтобы найти его, но он дает мне эту ошибку. from pyspark.sql import DataFrameStatFunctions as statFunc ...

1 ответ

Оконные функции не поддерживают рекурсию, но здесь это не требуется. Этот тип сессионизации может быть легко обработан с накопленной суммой:

я есть следующие данные, показывающие доход от покупок. +-------+--------+-------+ |user_id|visit_id|revenue| +-------+--------+-------+ | 1| 1| 0| | 1| 2| 0| | 1| 3| 0| | 1| 4| 100| | 1| 5| 0| | 1| 6| 0| | 1| 7| 200| | 1| 8| 0| | 1| 9| 10| ...

1 ответ

: Если вы используете это с автономным кластером Spark, вы должны убедиться, что версия (включая минорную) совпадает, иначе вы можете столкнуться с нечетными ошибками

ользую PySpark из Django и подключаюсь к основному узлу spark, используя SparkSession для выполнения задания в кластере. У меня вопрос: нужна ли мне полная установка свечи на моей локальной машине? Во всей документации я должен установить spark, ...

2 ответа

Наконец, вы можете удалить и переименовать:

я есть входной фрейм данных (ip_df), данные в этом кадре выглядят так, как показано ниже: id timestamp_value 1 2017-08-01T14:30:00+05:30 2 2017-08-01T14:30:00+06:30 3 2017-08-01T14:30:00+07:30Мне нужно создать новый фрейм данных (op_df), где мне ...

0 ответов

Затем вы можете отсортировать столбец «Группа» в любом порядке. Приведенное выше решение почти имеет его, но важно помнить, что row_number начинается с 1, а не с 0.

ьзуя pyspark, я хотел бы иметь возможность сгруппировать фрейм данных spark, отсортировать группу, а затем указать номер строки. Так Group Date A 2000 A 2002 A 2007 B 1999 B 2015Станет Group Date row_num A 2000 0 A 2002 1 A 2007 2 B 1999 0 B 2015 1