Результаты поиска по запросу "apache-spark"

1 ответ

Хорошо, понял, я не могу понять, как использовать кэшированный / постоянный фрейм данных для дальнейшего использования.

я есть датафрейм id lat long lag_lat lag_long detector lag_interval gpsdt lead_gpsdt 1 12 13 12 13 1 [1.5,3.5] 4 4.5 1 12 13 12 13 1 null 4.5 5 1 12 13 12 13 1 null 5 5.5 1 12 13 12 13 1 null 5.5 6 1 13 14 12 13 2 null 6 6.5 1 13 14 13 14 2 null ...

1 ответ

Spark время выполнения задания экспоненциально возрастает с очень широким набором данных и число столбцов [дублированный]

Этот вопрос является точной копией: Spark Fixed Width File Import Большое количество столбцов, вызывающих большое время выполнения [/questions/52293806/spark-fixed-width-file-import-large-number-of-columns-causing-high-execution-tim] Я создал ...

0 ответов

Интересно, почему количество задач варьируется? Как это должно быть определено Спарк?

аюсь понять странное поведение, которое я наблюдал в своем приложении потоковой передачи структуры Spark, которое выполняется вlocal[*] Режим. У меня 8 ядер на моих машинах. Хотя большинство моих Пакетов имеют 8 разделов, время от времени я ...

ТОП публикаций

1 ответ

Итак, переименование библиотеки pyspark в пользовательском репозитории решило проблему!

я есть фрейм данных pyspark, и я пытаюсь преобразовать его в панд с помощью toPandas (), однако я сталкиваюсь с нижеуказанной ошибкой. Я пробовал разные варианты, но получил ту же ошибку: 1) ограничить данные только несколькими записями 2) ...

1 ответ

Сгенерированный SQL выглядит так, довольно просто, просто долго:

ние Код R написан с использованием пакета Sparklyr для создания схемы базы данных.[Воспроизводимый код и база данных приведены] Существующий результат root |-- contributors : string |-- created_at : string |-- entities (struct) | |-- hashtags ...

1 ответ

, Я надеюсь, что такая же реализация предусмотрена и для Scala.

учаю данные откуда-то и вставляю их вcassandra ежедневно, то мне нужно получить данные изcassandra на целую неделю и сделать некоторую обработку и вставить результат обратно наcassandra. У меня много записей, каждая из которых выполняет ...

2 ответа

Spark SQL в настоящее время использует MEMORY_ONLY в качестве формата по умолчанию. Однако из-за использования буферов столбцов приходится пересчитывать блоки очень дорого, гораздо больше, чем ядро ​​Spark. Тем более, что теперь мы более консервативны в отношении блоков кэширования и иногда не будем кэшировать блоки, которые, по нашему мнению, могут превышать объем памяти, по-видимому, по умолчанию рекомендуется сохранять постоянные блоки на диске.

ался найти хороший ответ, почему для RDD по умолчанию сохраняются значения MEMORY_ONLY и набора данных MEMORY_AND_DISK. Но не смог найти это. Мне интересно, если кто-нибудь из вас знает веские причины? Спасибо

1 ответ

Параметр и его значение будут одинаковыми. Вы работаете с eclipse или ide, тогда вам нужно иметь любую конфигурацию, используя sparkconf

: |-- c0: string (nullable = true) |-- c1: struct (nullable = true) | |-- c2: array (nullable = true) | | |-- element: struct (containsNull = true) | | | |-- orangeID: string (nullable = true) | | | |-- orangeId: string (nullable = ...

1 ответ

Теперь масштабируйте ваши значения:

идея, почему спарк будет делать это дляStandardScaler? Согласно определениюStandardScaler: StandardScaler стандартизирует набор функций, чтобы иметь нулевое среднее значение и стандартное отклонение 1. Флаг withStd будет масштабировать данные ...

1 ответ

Спасибо за выдающийся ответ!

аспечатать путь решения конкретного образца в Spark DataFrame? Spark Version: '2.3.1'Приведенный ниже код печатает путь принятия решения всей модели, как заставить его распечатать путь принятия решения для конкретного образца? Например, путь ...