Результаты поиска по запросу "pyspark"

4 ответа

PySpark: сопоставление SchemaRDD с SchemaRDD

1 ответ

pyspark выбирает подмножество файлов с помощью regex / glob из s3

1 ответ

Spark Mllib предсказывает странное число или NaN

Я новичок в Apache Spark и пытаюсь использовать библиотеку машинного обучения для прогнозирования некоторых данных. Мой набор данных сейчас составляет всего ...

ТОП публикаций

3 ответа

Время итераций искры увеличивается экспоненциально при использовании соединения

Я совершенно новичок в Spark и пытаюсь реализовать некоторый итерационный алгоритм кластеризации (ожидание-максимизация) с центроидом, представленным моделью...

5 ответов

Как запустить Spark Shell с помощью pyspark в Windows?

Я новичок в Spark и пытаюсь следовать инструкциям отсюда, как инициализировать оболочку Spark из Python с помощью cmd:http://spark.apache.org/docs/latest/qui...

2 ответа

Spark-запрос выполняется очень медленно

У меня есть кластер на AWS с 2 рабами и 1 мастером. Все экземпляры имеют тип m1.large. У меня работает спарк версии 1.4. Я оцениваю производительность на 4 м...

1 ответ

Как передать файлы на главный узел?

Я уже написал код на python для реализации двоичной классификации, и я хочу распараллелить этот процесс классификации на основе разных файлов данных на моем ...

17 ответов

Pyspark: исключение: процесс шлюза Java завершился до отправки драйверу его номера порта

Я пытаюсь запустить pyspark на моем MacBook Air. Когда я пытаюсь запустить его, я получаю сообщение об ошибке:

3 ответа

Как записать полученный RDD в CSV-файл в Spark Python

У меня есть в результате RDD

2 ответа

Генерация случайных чисел в PySpark

Давайте начнем с простой функции, которая всегда возвращает случайное целое число: