Результаты поиска по запросу "apache-beam"

1 ответ

 DoFn.

рабатываю лучевой конвейер для бегуна потока данных. Мне нужна ниже функциональность в моем случае использования. Прочитайте входные события из темы Кафки. Каждое значение сообщения Кафки получено[userID, Event] пара.Для каждогоuserIDМне нужно ...

1 ответ

Я приветствовал бы обновление подхода к динамическим именам таблиц для Python BigQuerySink. Это мешает мне создавать поэтапные шаблоны, так как имя таблицы не оценивается во время выполнения.

льку у меня работает работающий статический поток данных, я хотел бы создать шаблон из этого, чтобы позволить мне легко повторно использовать поток данных без какой-либо командной строки. ПослеСоздание ...

1 ответ

это сработало, спасибо

я пытаюсь импортировать Apache Beam, я получаю следующую ошибку. >>> import apache_beam Traceback (most recent call last): File "<stdin>", line 1, in <module> ...

ТОП публикаций

2 ответа

? У меня точно такая же проблема, но не следите за тем, как это увеличивает параллелизм.

абота с потоковыми данными (2017-09-08_03_55_43-9675407418829265662) с помощьюApache Beam SDK for Java 2.1.0 не будет масштабироваться после 1 Worker даже с растущей очередью pubsub (сейчас 100 тыс. недоставленных сообщений) - есть ли у вас идеи ...

0 ответов

 но я не могу найти использование с Google Cloud. Любые примеры будут полезны.

я есть куча текстовых файлов (~ 1M), хранящихся в облачном хранилище Google. Когда я читаю эти файлы в конвейер Google Cloud DataFlow для обработки, я всегда получаю следующую ошибку: Total size of the BoundedSource objects returned by ...

1 ответ

@grzes Я окончательно отказался от DataFlow как решения для обработки событий в полном порядке. Я попытался использовать подход, предложенный Кенном, но натолкнулся на всевозможные проблемы, из-за которых конвейер завис. Я пытался заручиться поддержкой службы поддержки Google, но ничего не вышло. В итоге я реализовал подход пакетной обработки в Apache Spark, который оказался очень успешным.

емный контекстЯ пытаюсь сгенерировать общий (линейный) порядок элементов событий на ключ из потока в реальном времени, где порядок - это время события (полученное из полезной нагрузки события). ПодходЯ попытался реализовать это с помощью ...

1 ответ

Это не работает (пробовал в сочетании с раздвижными и глобальными окнами)

аюсь реализовать конвейер и принимает поток данных, и каждую минуту выводит True, если есть какой-либо элемент в минутном интервале, или False, если его нет. Панель (с постоянным временным триггером) или окно (фиксированное окно), по-видимому, не ...

1 ответ

Не стесняйтесь задавать вопросы, если вы хотите, чтобы я разъяснил это дальше.

у найти только женщин-сотрудников из двух разных файлов JSON и выбрать только те поля, которые нас интересуют, и записать вывод в другой JSON. Также я пытаюсь реализовать это в облачной платформе Google, используя Dataflow. Может ли кто-нибудь ...

0 ответов

В противном случае вам просто нужно использовать Beam с версией выпуска> = 2.0.0.

бовал пример кодаSortValues [https://beam.apache.org/documentation/sdks/java-extensions/#sorter] преобразовать с помощьюDirectRunner на локальной машине (Windows) PCollection<KV<String, KV<String, Integer>>> input = ... ...

1 ответ

При индексировании с учетом состояния ParDo запускается однопоточным в Dataflow Runner

сноДокументация по Apache Beam 2.0.0 SDK [https://beam.apache.org/documentation/sdks/javadoc/2.0.0/org/apache/beam/sdk/transforms/GroupIntoBatches.html] GroupIntoBatches работает только сKV коллекции. Мой набор данных содержит только значения, ...