Вы можете продолжать так долго ...

Question

Feb 15, 2018, 09:01 PM

spark-dataframe pyspark pandas python apache-spark

Вы можете продолжать так долго ...

новичок здесь. Недавно я начал играть с помощью spark на моей локальной машине на двух ядрах с помощью команды.

pyspark - мастер местный [2]

У меня есть 393 Мб текстового файла, который содержит почти миллион строк. Я хотел выполнить некоторые операции с данными. Я использую встроенные функции Dataframe Pyspark для выполнения простых операций, таких как groupBy, sum, max. StdDev.

Как бы то ни было, когда я выполняю те же самые операции в пандах с точно таким же набором данных, панды, кажется, побеждают pyspark с огромным запасом с точки зрения задержки.

Мне было интересно, что может быть причиной этого. У меня есть пара мыслей.

Делают ли встроенные функции процесс сериализации / десериализации неэффективным? Если да, каковы альтернативы им?Является ли набор данных слишком маленьким, чтобы он не мог превысить накладные расходы базовой JVM, на которой работает искра?

Спасибо за поиск. Очень признателен

Комментировать

Вы можете продолжать так долго ...

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы