Результаты поиска по запросу "partitioning"

1 ответ

Спасибо! Прошу об обновлениях в GlobalKTable от agg_data_in? Согласно моим знаниям, обновления в GlobalKTable перезаписываются (если новые данные приходят и находят там свой ключ, они перезаписывают старые данные / значение).

спользовании KTable потоки Kafka не позволяют экземплярам читать из нескольких разделов определенной темы, когда количество экземпляров / потребителей равно числу разделов. Я пытался добиться этого с помощью GlobalKTable, проблема в том, что ...

1 ответ

Если данные не содержат такой столбец, вы можете использовать

аюсь записать большой разделенный набор данных на диск с помощью Spark иpartitionBy Алгоритм борется с обоими подходами, которые я пробовал. Перегородки сильно перекошены - некоторые перегородки массивные, а другие крошечные. Проблема № ...

3 ответа

Хорошо. Но у меня есть 22Bill строки в таблице с различными значениями в этом столбце раздела, и я не могу дать предикаты для стольких значений.

аюсь переместить данные из таблицы в таблице PostgreSQL в таблицу Hive в HDFS. Для этого я придумал следующий код: val conf = ...

ТОП публикаций

0 ответов

Если вы не осколите состояние, основываясь на том же ключе, что и входные темы, вы потеряете локальность / совместное разбиение данных, и, таким образом, ваше приложение будет вычислять неверные результаты.

арственные магазины в Kafka Streams создаются внутри страны. Государственные хранилища разделены по ключам, но не позволяют обеспечить разделение, кромепо ключу (насколько мне известно). ВОПРОСОВ Какконтролировать количество разделов в ...

4 ответа

https://issues.apache.org/jira/browse/SPARK-17817

у проверить, как мы можем получить информацию о каждом разделе, например, общее нет. записей в каждом разделе на стороне водителя, когда задание Spark отправляется в режиме развертывания в виде кластера пряжи для регистрации или печати на консоли.

1 ответ

issues.apache.org/jira/browse/SPARK-14922

пытаюсь удалить несколько разделов одновременно, но изо всех сил пытаюсь сделать это с помощью Impala или Hive. Я попробовал следующий запрос, с и без': ALTER TABLE cz_prd_corrti_st.s1mme_transstats_info DROP IF EXISTS ...

1 ответ

Как повысить производительность медленных заданий Spark с использованием соединения DataFrame и JDBC?

ользую спарк в режиме кластера и читаю данные из RDBMS через JDBC.Согласно искредокументыэти параметры разделения описывают, как разделить таблицу при паралл...

1 ответ

Как работает разделитель диапазона в Spark?

3 ответа

3 способа быстрой сортировки (реализация C)

Я стараюсьвоплощать в жизнь некоторые алгоритмы чисто родовые с использованием C. Я придерживаюсь трехсторонней быстрой сортировки, но каким-то образом реали...

2 ответа

Обработка очень больших данных с помощью MySQL

Простите за длинный пост!У меня есть база данных, содержащая ~ 30 таблиц (двигатель InnoDB). Только две из этих таблиц, а именно, «транзакция» и «сдвиг», дос...