Результаты поиска по запросу "apache-spark"

аюсь понять странное поведение, которое я наблюдал в своем приложении потоковой передачи структуры Spark, которое выполняется вlocal[*] Режим. У меня 8 ядер на моих машинах. Хотя большинство моих Пакетов имеют 8 разделов, время от времени я ...

scala

1 ответ

Параметр и его значение будут одинаковыми. Вы работаете с eclipse или ide, тогда вам нужно иметь любую конфигурацию, используя sparkconf

2 ответа

Spark SQL в настоящее время использует MEMORY_ONLY в качестве формата по умолчанию. Однако из-за использования буферов столбцов приходится пересчитывать блоки очень дорого, гораздо больше, чем ядро Spark. Тем более, что теперь мы более консервативны в отношении блоков кэширования и иногда не будем кэшировать блоки, которые, по нашему мнению, могут превышать объем памяти, по-видимому, по умолчанию рекомендуется сохранять постоянные блоки на диске.

ался найти хороший ответ, почему для RDD по умолчанию сохраняются значения MEMORY_ONLY и набора данных MEMORY_AND_DISK. Но не смог найти это. Мне интересно, если кто-нибудь из вас знает веские причины? Спасибо

ТОП публикаций

10 Food Delivery Startups to Watch for in 2020

7 Best Telemedicine Apps In 2020

How to Build a Live Streaming Video App and Reach Founder’s Zen

19 Tools And Resources to Build an MVP From Scratch

nested sparklyr r flatten

1 ответ

Сгенерированный SQL выглядит так, довольно просто, просто долго:

ние Код R написан с использованием пакета Sparklyr для создания схемы базы данных.[Воспроизводимый код и база данных приведены] Существующий результат root |-- contributors : string |-- created_at : string |-- entities (struct) | |-- hashtags ...

scala apache-spark-sql

1 ответ

Хорошо, понял, я не могу понять, как использовать кэшированный / постоянный фрейм данных для дальнейшего использования.

я есть датафрейм id lat long lag_lat lag_long detector lag_interval gpsdt lead_gpsdt 1 12 13 12 13 1 [1.5,3.5] 4 4.5 1 12 13 12 13 1 null 4.5 5 1 12 13 12 13 1 null 5 5.5 1 12 13 12 13 1 null 5.5 6 1 13 14 12 13 2 null 6 6.5 1 13 14 13 14 2 null ...

jdbc apache-spark-sql partitioning hive

3 ответа

Хорошо. Но у меня есть 22Bill строки в таблице с различными значениями в этом столбце раздела, и я не могу дать предикаты для стольких значений.

аюсь переместить данные из таблицы в таблице PostgreSQL в таблицу Hive в HDFS. Для этого я придумал следующий код: val conf = ...

parallel-processing timer cassandra

1 ответ

спасибо за ваш ответ, сэр, я не могу понять это ясно (искра новичка). Можете ли вы привести пример?

аю какую-то обработку в spark и хочу реализовать функциональность, которая независимо от выполняемой обработки, я хочу запланировать таймер (с интервалом в 5 минут), который сохранит некоторые данные в Cassandra (или, скажем, любой другой ...

pyspark

1 ответ

Спасибо за такой подробный ответ для меня!

имах кластера, как написать функцию закрытияf дать каждому работнику доступ к копии переменнойN. N=5 lines=sc.parallelize(['early radical', 'french revolution','pejorative way', 'violent means']) def f1(line): return line[:N] l=lines.map(f1) ...

pyspark apache-spark-sql pyspark-sql python

0 ответов

я использовал код выше

дал 3 кадра данных, выполнив следующий код. sample.csv id|code|name|Lname|mname 2|AA|BB|CC|DD|sample1.csv id|code|name|Lname|mname 1|A|B|C|D|sample2.csv id1|code1|name1|Lnam|mnam 3|AAA|BBB|CCC|DDD|Я сравнил заголовки фреймов данных, используя ...

scala

1 ответ

не настраивается

е в Spark] После создания DataFrame я пытаюсь разбить его на основе столбца в DataFrame. Когда я проверяю разделитель с помощьюdata_frame.rdd.partitioner я получилНикто в качестве вывода. Разбиение с помощью ...

Страница 160 из 167

158 159160161 162

Результаты поиска по запросу "apache-spark"

Интересно, почему количество задач варьируется? Как это должно быть определено Спарк?

Параметр и его значение будут одинаковыми. Вы работаете с eclipse или ide, тогда вам нужно иметь любую конфигурацию, используя sparkconf

Популярные теги

ТОП публикаций

Сгенерированный SQL выглядит так, довольно просто, просто долго:

Хорошо, понял, я не могу понять, как использовать кэшированный / постоянный фрейм данных для дальнейшего использования.

Хорошо. Но у меня есть 22Bill строки в таблице с различными значениями в этом столбце раздела, и я не могу дать предикаты для стольких значений.

спасибо за ваш ответ, сэр, я не могу понять это ясно (искра новичка). Можете ли вы привести пример?

Спасибо за такой подробный ответ для меня!

я использовал код выше

не настраивается

Вы очень активны! Это здорово!

Результаты поиска по запросу "apache-spark"

Популярные теги

ТОП публикаций