Результаты поиска по запросу "apache-beam"

1 ответ

Руководство по программированию Beam

2 ответа

Вот

3 ответа

это то, что я использую.

ТОП публикаций

1 ответ

При индексировании с учетом состояния ParDo запускается однопоточным в Dataflow Runner

сноДокументация по Apache Beam 2.0.0 SDK [https://beam.apache.org/documentation/sdks/javadoc/2.0.0/org/apache/beam/sdk/transforms/GroupIntoBatches.html] GroupIntoBatches работает только сKV коллекции. Мой набор данных содержит только значения, ...

1 ответ

 чтобы правильно реализовать это, используя алгоритм сравнения и замены, каждый элемент будет по-прежнему обрабатываться последовательно, причем все потоки, кроме одного, будут все время ожидать.

нерируем последовательный индекс в ParDo, используя Java SDK 2.0.0 от Beam. Так же, как простой пример с указателем состояния в Beamвведение в обработку состояний ...

0 ответов

В противном случае вам просто нужно использовать Beam с версией выпуска> = 2.0.0.

бовал пример кодаSortValues [https://beam.apache.org/documentation/sdks/java-extensions/#sorter] преобразовать с помощьюDirectRunner на локальной машине (Windows) PCollection<KV<String, KV<String, Integer>>> input = ... ...

1 ответ

Не стесняйтесь задавать вопросы, если вы хотите, чтобы я разъяснил это дальше.

у найти только женщин-сотрудников из двух разных файлов JSON и выбрать только те поля, которые нас интересуют, и записать вывод в другой JSON. Также я пытаюсь реализовать это в облачной платформе Google, используя Dataflow. Может ли кто-нибудь ...

1 ответ

Это не работает (пробовал в сочетании с раздвижными и глобальными окнами)

аюсь реализовать конвейер и принимает поток данных, и каждую минуту выводит True, если есть какой-либо элемент в минутном интервале, или False, если его нет. Панель (с постоянным временным триггером) или окно (фиксированное окно), по-видимому, не ...

0 ответов

 но я не могу найти использование с Google Cloud. Любые примеры будут полезны.

я есть куча текстовых файлов (~ 1M), хранящихся в облачном хранилище Google. Когда я читаю эти файлы в конвейер Google Cloud DataFlow для обработки, я всегда получаю следующую ошибку: Total size of the BoundedSource objects returned by ...

1 ответ

@grzes Я окончательно отказался от DataFlow как решения для обработки событий в полном порядке. Я попытался использовать подход, предложенный Кенном, но натолкнулся на всевозможные проблемы, из-за которых конвейер завис. Я пытался заручиться поддержкой службы поддержки Google, но ничего не вышло. В итоге я реализовал подход пакетной обработки в Apache Spark, который оказался очень успешным.

емный контекстЯ пытаюсь сгенерировать общий (линейный) порядок элементов событий на ключ из потока в реальном времени, где порядок - это время события (полученное из полезной нагрузки события). ПодходЯ попытался реализовать это с помощью ...