Результаты поиска по запросу "apache-beam"

2 ответа

Вариант 3: обработка в пакетном режиме, запускаемая из внешнего источника. Этот подход вводит задержку по сравнению с вариантами 1 и 2, поскольку конвейер должен запуститься до начала обработки. Здесь вы можете запустить событие из вашей исходной файловой системы, чтобы запланировать или немедленно запустить процесс потока данных. Этот вариант лучше всего подходит для низкочастотных обновлений файлов большого размера.

я есть каталог в GCS или другой поддерживаемой файловой системе, в которую новые файлы записываются внешним процессом. Я хотел бы написать потоковый конвейер Apache Beam, который постоянно следит за этим каталогом на предмет новых файлов, читает ...

2 ответа

Привет, Крис. Извините, что проигнорировал ваш предыдущий ответ. У меня есть упрощенная установка для подтверждения концепции мастерства. Я обошел конфликт, разделив проекты (как в моем случае, я имел дело с издателем Pub / Sub и проектом Dataflow). Это действительно не оптимально, но пока подойдет. Спасибо за внимание, я буду следить за этой проблемой.

кже поднял вопрос GitHub для этого - https://github.com/googleapis/google-cloud-java/issues/4095 [https://github.com/googleapis/google-cloud-java/issues/4095]) У меня есть последние версии следующих 2 зависимостей для Apache Beam: Зависимость 1 ...

2 ответа

Что такое Apache Beam? [закрыто]

ТОП публикаций

1 ответ

При индексировании с учетом состояния ParDo запускается однопоточным в Dataflow Runner

сноДокументация по Apache Beam 2.0.0 SDK [https://beam.apache.org/documentation/sdks/javadoc/2.0.0/org/apache/beam/sdk/transforms/GroupIntoBatches.html] GroupIntoBatches работает только сKV коллекции. Мой набор данных содержит только значения, ...

0 ответов

 но я не могу найти использование с Google Cloud. Любые примеры будут полезны.

я есть куча текстовых файлов (~ 1M), хранящихся в облачном хранилище Google. Когда я читаю эти файлы в конвейер Google Cloud DataFlow для обработки, я всегда получаю следующую ошибку: Total size of the BoundedSource objects returned by ...

2 ответа

Вот

0 ответов

github.com/spring-cloud/spring-cloud-gcp/issues/442

но приложение весенней загрузки 2.0.0.RC с Google Dataflow и другими службами и развернуто с помощью следующей команды mavenmvn appengine:deploy, Сборка проходит успешно в AppEngine, и создается экземпляр. Проблема в приборной панели App Engine: ...

1 ответ

Предположим, что порядок группировки не важен, вы можете просто сгруппировать внутри

аюсь сделать что-то вроде этого:Пакетная сборка ПК в Beam / Dataflow [https://stackoverflow.com/questions/44348085/batch-pcollection-in-beam-dataflow] Ответ в приведенной выше ссылке на Java, а язык, с которым я работаю - Python. Таким образом, ...

1 ответ

 DoFn.

рабатываю лучевой конвейер для бегуна потока данных. Мне нужна ниже функциональность в моем случае использования. Прочитайте входные события из темы Кафки. Каждое значение сообщения Кафки получено[userID, Event] пара.Для каждогоuserIDМне нужно ...

1 ответ

Это не работает (пробовал в сочетании с раздвижными и глобальными окнами)

аюсь реализовать конвейер и принимает поток данных, и каждую минуту выводит True, если есть какой-либо элемент в минутном интервале, или False, если его нет. Панель (с постоянным временным триггером) или окно (фиксированное окно), по-видимому, не ...