Результаты поиска по запросу "pyspark"

2 ответа

Вы также установили git (с инструментами bash)?

ичок в Spark и пытаюсь завершить урок по Spark:ссылка на учебник [https://www.youtube.com/watch?v=3CPI2D_QD44&index=4&list=PLot-YkcC7wZ_2sxmRTZr2c121rjcaleqv] После установки на локальный компьютер (Win10 64, Python 3, Spark 2.4.0) и установки ...

1 ответ

Большое спасибо за этот быстрый и точный ответ.

ользую pyspark 2.3.1 и хотел бы фильтровать элементы массива с помощью выражения, а не использования udf: >>> df = spark.createDataFrame([(1, "A", [1,2,3,4]), (2, "B", [1,2,3,4,5])],["col1", "col2", "col3"]) >>> ...

1 ответ

, Мы должны использовать функцию агрегирования при повороте, так как поворот всегда находится в контексте агрегации. Функция агрегирования может быть суммой, счетом, средним, минимальным или максимальным, в зависимости от желаемого выхода -

от вопрос уже есть ответ: Как развернуть DataFrame? [/questions/30244910/how-to-pivot-dataframe] 6 ответов Я хочу перенести информационный кадр. Это всего лишь небольшая выдержка из моего исходного кадра данных - from pyspark.sql.functions ...

ТОП публикаций

6 ответов

https://github.com/minrk/findspark

ользую spark over emr и пишу скрипт pyspark, я получаю сообщение об ошибке при попытке from pyspark import SparkContext sc = SparkContext()это ошибка File "pyex.py", line 5, in <module> sc = SparkContext() ...

2 ответа

Как сделать хорошие воспроизводимые примеры Apache Spark Dataframe

я есть искровой датафрейм со строками как - 1 | [a, b, c] 2 | [d, e, f] 3 | [g, h, i]Теперь я хочу сохранить только первые 2 элемента из столбца массива. 1 | [a, b] 2 | [d, e] 3 | [g, h]Как это может быть достигнуто? Примечание. Помните, что ...

0 ответов

я использовал код выше

дал 3 кадра данных, выполнив следующий код. sample.csv id|code|name|Lname|mname 2|AA|BB|CC|DD|sample1.csv id|code|name|Lname|mname 1|A|B|C|D|sample2.csv id1|code1|name1|Lnam|mnam 3|AAA|BBB|CCC|DDD|Я сравнил заголовки фреймов данных, используя ...

1 ответ

Спасибо большое за помощь. Это отличное решение. Так эффективно и просто.

я есть два кадра данных:df1 +---+-----------------+ |id1| items1| +---+-----------------+ | 0| [B, C, D, E]| | 1| [E, A, C]| | 2| [F, A, E, B]| | 3| [E, G, A]| | 4| [A, C, E, B, D]| +---+-----------------+а такжеdf2: +---+-----------------+ ...

1 ответ

Спасибо за такой подробный ответ для меня!

имах кластера, как написать функцию закрытияf дать каждому работнику доступ к копии переменнойN. N=5 lines=sc.parallelize(['early radical', 'french revolution','pejorative way', 'violent means']) def f1(line): return line[:N] l=lines.map(f1) ...

1 ответ

Итак, переименование библиотеки pyspark в пользовательском репозитории решило проблему!

я есть фрейм данных pyspark, и я пытаюсь преобразовать его в панд с помощью toPandas (), однако я сталкиваюсь с нижеуказанной ошибкой. Я пробовал разные варианты, но получил ту же ошибку: 1) ограничить данные только несколькими записями 2) ...

1 ответ

Теперь масштабируйте ваши значения:

идея, почему спарк будет делать это дляStandardScaler? Согласно определениюStandardScaler: StandardScaler стандартизирует набор функций, чтобы иметь нулевое среднее значение и стандартное отклонение 1. Флаг withStd будет масштабировать данные ...