Результаты поиска по запросу "pyspark"

1 ответ

и панды одинаково:

я есть два CSV-файла, один из которых содержит ключевые слова для фильмов, другой содержит актеры и съемочную группу.keywords.csv файл выглядит так: $ head -n 3 keywords.csv id,keywords 862,"[{'id': 931, 'name': 'jealousy'}, {'id': 4290, 'name': ...

2 ответа

Спасибо тебе, Бала, это хорошее решение. Может быть, немного дольше, чем предложено ags29.

я есть Pyspark Dataframe с этой структурой: root |-- Id: string (nullable = true) |-- Q: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- pr: string (nullable = true) | | |-- qt: double (nullable = true)Что-то ...

1 ответ

 пожалуйста, посмотрите. извините за путаницу

ользую Hive Metastore в EMR. Я могу запросить таблицу вручную через HiveSQL. Но когда я использую ту же таблицу в Spark Job, он говоритВходной путь не существует: s3: // Вызывается: org.apache.hadoop.mapred.InvalidInputException: Входной путь ...

ТОП публикаций

1 ответ

 во втором окне см. обновление

ужно выполнить описанную ниже операцию с кадрами данных, используя оконную функцию Lag and Lead. Для каждого ключа мне нужно выполнить приведенную ниже вставку и обновить в окончательном выводе Введите условие: 1. По умолчанию LAYER_NO = 0 ...

0 ответов

Spark: Как сопоставить Python с пользовательскими функциями Scala или Java?

аюсь применить пользовательскую функцию для Window в PySpark. Я читал, что UDAF может быть подходящим способом, но я не смог найти ничего конкретного. Чтобы привести пример (взято отсюда:Технический блог ...

3 ответа

Попробуйте это - самый простой подход

кто-нибудь сказать мне, как преобразовать список, содержащий строки, в Dataframe в pyspark. Я использую Python 3.6 с искрой 2.2.1. Я только начал изучать искровую среду, и мои данные выглядят так, как показано ...

1 ответ

и извлечь:

чномstructured_kafka_wordcount.py [https://gist.github.com/hrchu/2b2590f2f737ef430ac32b7f8edc15c0]код, Когда я делю строки на словаudf как ниже, my_split = udf(lambda x: x.split(' '), ArrayType(StringType())) words = lines.select( explode( ...

1 ответ

Вы можете использовать следующее, чтобы сгладить структуру. Explode не работает для struct, так как сообщения об ошибках.

я есть датафрейм, схема которого выглядит следующим образом: event: struct (nullable = true) | | event_category: string (nullable = true) | | event_name: string (nullable = true) | | properties: struct (nullable = true) | | | ErrorCode: string ...

0 ответов

большое спасибо, ваш ответ ясен и логичен. "startTime" является значением смещения

р выглядит следующим образом: df=spark.createDataFrame([ (1,"2017-05-15 23:12:26",2.5), (1,"2017-05-09 15:26:58",3.5), (1,"2017-05-18 15:26:58",3.6), (2,"2017-05-15 15:24:25",4.8), (3,"2017-05-25 ...

1 ответ

Подход, показанный в связанном посте, показывает, как обобщить это для произвольных преобразований.

оложим, у меня есть следующий spark-dataframe: +-----+-------+ | word| label| +-----+-------+ | red| color| | red| color| | blue| color| | blue|feeling| |happy|feeling| +-----+-------+Который может быть создан с использованием следующего ...