Результаты поиска по запросу "pyspark"

2 ответа

Spark-запрос выполняется очень медленно

У меня есть кластер на AWS с 2 рабами и 1 мастером. Все экземпляры имеют тип m1.large. У меня работает спарк версии 1.4. Я оцениваю производительность на 4 м...

1 ответ

Функция Strip или Regex в кадре данных Spark 1.3

У меня есть некоторый код из PySpark 1.5, который я, к сожалению, должен перенести обратно в Spark 1.3. У меня есть столбец с алфавитно-цифровыми элементами,...

1 ответ

Укажите параметры для jvm, запущенного pyspark

ТОП публикаций

2 ответа

Возврат RDD с наибольшим значением N из другого RDD в SPARK

Я пытаюсь отфильтровать RDD кортежей, чтобы получить наибольшее N кортежей на основе значений ключей. Мне нужен формат возврата, чтобы быть RDD.Итак, СДР:

2 ответа

Что такое эквивалентный класс случая Scala в PySpark?

Как бы вы применили и / или внедрили эквивалент класса case в PySpark?

3 ответа

С UDF с помощью взрыва

с Я хочу добавить возвращаемые значения UDF к существующему фрейму данных в отдельных столбцах. Как мне достичь этого изобретательно? Вот пример того, что я имею до сих пор. from pyspark.sql.functions import udf from pyspark.sql.types import ...

9 ответов

Лучший способ получить максимальное значение в столбце данных Spark

2 ответа

PySpark DataFrames - способ перечисления без преобразования в панды?

У меня очень большойpyspark.sql.dataframe.DataFrame по имени дф. Мне нужен какой-то способ перечисления записей - таким образом, возможность доступа к записи...

3 ответа

(на узле с Resource Manager), если вы используете честный планировщик и перезапустите Resource Manager.

2 ответа

Как повысить производительность медленных заданий Spark с использованием соединения DataFrame и JDBC?