Результаты поиска по запросу "apache-spark"
Интересно, почему количество задач варьируется? Как это должно быть определено Спарк?
аюсь понять странное поведение, которое я наблюдал в своем приложении потоковой передачи структуры Spark, которое выполняется вlocal[*] Режим. У меня 8 ядер на моих машинах. Хотя большинство моих Пакетов имеют 8 разделов, время от времени я ...
Параметр и его значение будут одинаковыми. Вы работаете с eclipse или ide, тогда вам нужно иметь любую конфигурацию, используя sparkconf
: |-- c0: string (nullable = true) |-- c1: struct (nullable = true) | |-- c2: array (nullable = true) | | |-- element: struct (containsNull = true) | | | |-- orangeID: string (nullable = true) | | | |-- orangeId: string (nullable = ...
Spark SQL в настоящее время использует MEMORY_ONLY в качестве формата по умолчанию. Однако из-за использования буферов столбцов приходится пересчитывать блоки очень дорого, гораздо больше, чем ядро Spark. Тем более, что теперь мы более консервативны в отношении блоков кэширования и иногда не будем кэшировать блоки, которые, по нашему мнению, могут превышать объем памяти, по-видимому, по умолчанию рекомендуется сохранять постоянные блоки на диске.
ался найти хороший ответ, почему для RDD по умолчанию сохраняются значения MEMORY_ONLY и набора данных MEMORY_AND_DISK. Но не смог найти это. Мне интересно, если кто-нибудь из вас знает веские причины? Спасибо
Сгенерированный SQL выглядит так, довольно просто, просто долго:
ние Код R написан с использованием пакета Sparklyr для создания схемы базы данных.[Воспроизводимый код и база данных приведены] Существующий результат root |-- contributors : string |-- created_at : string |-- entities (struct) | |-- hashtags ...
Хорошо, понял, я не могу понять, как использовать кэшированный / постоянный фрейм данных для дальнейшего использования.
я есть датафрейм id lat long lag_lat lag_long detector lag_interval gpsdt lead_gpsdt 1 12 13 12 13 1 [1.5,3.5] 4 4.5 1 12 13 12 13 1 null 4.5 5 1 12 13 12 13 1 null 5 5.5 1 12 13 12 13 1 null 5.5 6 1 13 14 12 13 2 null 6 6.5 1 13 14 13 14 2 null ...
Хорошо. Но у меня есть 22Bill строки в таблице с различными значениями в этом столбце раздела, и я не могу дать предикаты для стольких значений.
аюсь переместить данные из таблицы в таблице PostgreSQL в таблицу Hive в HDFS. Для этого я придумал следующий код: val conf = ...
спасибо за ваш ответ, сэр, я не могу понять это ясно (искра новичка). Можете ли вы привести пример?
аю какую-то обработку в spark и хочу реализовать функциональность, которая независимо от выполняемой обработки, я хочу запланировать таймер (с интервалом в 5 минут), который сохранит некоторые данные в Cassandra (или, скажем, любой другой ...
Спасибо за такой подробный ответ для меня!
имах кластера, как написать функцию закрытияf дать каждому работнику доступ к копии переменнойN. N=5 lines=sc.parallelize(['early radical', 'french revolution','pejorative way', 'violent means']) def f1(line): return line[:N] l=lines.map(f1) ...
я использовал код выше
дал 3 кадра данных, выполнив следующий код. sample.csv id|code|name|Lname|mname 2|AA|BB|CC|DD|sample1.csv id|code|name|Lname|mname 1|A|B|C|D|sample2.csv id1|code1|name1|Lnam|mnam 3|AAA|BBB|CCC|DDD|Я сравнил заголовки фреймов данных, используя ...
не настраивается
е в Spark] После создания DataFrame я пытаюсь разбить его на основе столбца в DataFrame. Когда я проверяю разделитель с помощьюdata_frame.rdd.partitioner я получилНикто в качестве вывода. Разбиение с помощью ...