Вы можете продолжать так долго ...

новичок здесь. Недавно я начал играть с помощью spark на моей локальной машине на двух ядрах с помощью команды.

pyspark - мастер местный [2]

У меня есть 393 Мб текстового файла, который содержит почти миллион строк. Я хотел выполнить некоторые операции с данными. Я использую встроенные функции Dataframe Pyspark для выполнения простых операций, таких как groupBy, sum, max. StdDev.

Как бы то ни было, когда я выполняю те же самые операции в пандах с точно таким же набором данных, панды, кажется, побеждают pyspark с огромным запасом с точки зрения задержки.

Мне было интересно, что может быть причиной этого. У меня есть пара мыслей.

Делают ли встроенные функции процесс сериализации / десериализации неэффективным? Если да, каковы альтернативы им?Является ли набор данных слишком маленьким, чтобы он не мог превысить накладные расходы базовой JVM, на которой работает искра?

Спасибо за поиск. Очень признателен

Ответы на вопрос(1)

Ваш ответ на вопрос