Вы можете продолжать так долго ...

новичок здесь. Недавно я начал играть с помощью spark на моей локальной машине на двух ядрах с помощью команды.

pyspark - мастер местный [2]

У меня есть 393 Мб текстового файла, который содержит почти миллион строк. Я хотел выполнить некоторые операции с данными. Я использую встроенные функции Dataframe Pyspark для выполнения простых операций, таких как groupBy, sum, max. StdDev.

Как бы то ни было, когда я выполняю те же самые операции в пандах с точно таким же набором данных, панды, кажется, побеждают pyspark с огромным запасом с точки зрения задержки.

Мне было интересно, что может быть причиной этого. У меня есть пара мыслей.

Делают ли встроенные функции процесс сериализации / десериализации неэффективным? Если да, каковы альтернативы им?Является ли набор данных слишком маленьким, чтобы он не мог превысить накладные расходы базовой JVM, на которой работает искра?

Спасибо за поиск. Очень признателен