Результаты поиска по запросу "pyspark"

1 ответ

, :)

я есть фрейм данных вPyspark как ниже. я бы хотелcount значения в двух столбцах на основе некоторыхlists и заполните новые столбцы для каждогоlist df.show() +---+-------------+-------------_+ | id| device| ...

0 ответов

До вчерашнего дня все работало нормально. Не уверен, что является причиной этой ошибки. Скорее всего, некоторые настройки связаны. Как я могу это исправить?

аюсь запустить операцию сбора данных на СДР, созданную из Pyspark Dataframe (obj_filter): obj_filter.rdd.map(lambda l: (l[0],l[1],l[2])).collect()Вот несколько наблюдений из obj_filter, obj_filter.show (3): +--------+----------+---------+ | ...

1 ответ

Благодарю. Надеюсь, что это будет ссылаться на других.

отаю над обновлением базы данных mysql с использованием pyspark framework и работаю на сервисах AWS Glue. У меня есть датафрейм следующим образом: df2= sqlContext.createDataFrame([("xxx1","81A01","TERR NAME 55","NY"),("xxx2","81A01","TERR NAME ...

ТОП публикаций

1 ответ

) тогда зачем нам пиарроу на каждом узле установлен?

аюсь применить функцию к каждой группе набора данных в pyspark. Первая ошибка, которую я получил, была Py4JError: An error occurred while calling o62.__getnewargs__. Trace: py4j.Py4JException: Method __getnewargs__([]) does not existЧтобы ...

1 ответ

(2) Я не уверен, почему значения верны ДО создания каталогов - но я предполагаю, что в порядке запуска исполнителей они подключаются к драйверу перед созданием каталогов.

е говоряМне нужно количество исполнителей / работников в кластере Spark, но использующихsc._jsc.sc().getExecutorMemoryStatus().size() дает мне 1, когда на самом деле есть 12 исполнителей. С более подробной информациейЯ пытаюсь определить ...

1 ответ

Искровой структурированный поток и регрессия Spark-Ml

ся, это должно быть очевидно, но при просмотре документов и примеров я не уверен, что смогу найти способ взять структурированный поток и преобразовать его с помощью PySpark. Например: from pyspark.sql import SparkSession spark = ( SparkSession ...

1 ответ

Или, что эквивалентно, вы можете использовать

я есть датафрейм (df), который состоит из более чем 50 столбцов и различных типов типов данных, таких как df3.printSchema() CtpJobId: string (nullable = true) |-- TransformJobStateId: string (nullable = true) |-- LastError: string (nullable = ...

3 ответа

В вопросе говорится «без использования панд».

аюсь преобразовать следующий Pythondict в PySpark DataFrame, но я не получаю ожидаемый результат. dict_lst = {'letters': ['a', 'b', 'c'], 'numbers': [10, 20, 30]} df_dict = sc.parallelize([dict_lst]).toDF() # Result not as expected ...

1 ответ

Спасибо за выдающийся ответ!

аспечатать путь решения конкретного образца в Spark DataFrame? Spark Version: '2.3.1'Приведенный ниже код печатает путь принятия решения всей модели, как заставить его распечатать путь принятия решения для конкретного образца? Например, путь ...

1 ответ

Теперь масштабируйте ваши значения:

идея, почему спарк будет делать это дляStandardScaler? Согласно определениюStandardScaler: StandardScaler стандартизирует набор функций, чтобы иметь нулевое среднее значение и стандартное отклонение 1. Флаг withStd будет масштабировать данные ...