Результаты поиска по запросу "google-cloud-dataflow"
но я не могу найти использование с Google Cloud. Любые примеры будут полезны.
я есть куча текстовых файлов (~ 1M), хранящихся в облачном хранилище Google. Когда я читаю эти файлы в конвейер Google Cloud DataFlow для обработки, я всегда получаю следующую ошибку: Total size of the BoundedSource objects returned by ...
@grzes Я окончательно отказался от DataFlow как решения для обработки событий в полном порядке. Я попытался использовать подход, предложенный Кенном, но натолкнулся на всевозможные проблемы, из-за которых конвейер завис. Я пытался заручиться поддержкой службы поддержки Google, но ничего не вышло. В итоге я реализовал подход пакетной обработки в Apache Spark, который оказался очень успешным.
емный контекстЯ пытаюсь сгенерировать общий (линейный) порядок элементов событий на ключ из потока в реальном времени, где порядок - это время события (полученное из полезной нагрузки события). ПодходЯ попытался реализовать это с помощью ...
Удалось ли вам достичь того, чего вы хотели?
твуют ли инструкции по использованию Google Cloud SQL в качестве источника и / или приемника чтения потока данных? НаДокументация по Apache Beam Python SDK 2.1.0 [https://beam.apache.org/documentation/sdks/pydoc/2.1.0/apache_beam.html]нет главы, ...
Положительным моментом является то, что вы можете уменьшить общую задержку до нескольких секунд; однако основной недостаток заключается в том, что если ваши транзакционные данные сильно изменяются, вам придется создать схему управления версиями для отслеживания изменений.
рабатываю решение, в котором Google Cloud SQL будет использоваться для хранения всех данных, поступающих от обычного функционирования приложения (вид данных OLTP). Ожидается, что данные со временем вырастут в довольно большой размер. Сами данные ...
это сработало, спасибо
я пытаюсь импортировать Apache Beam, я получаю следующую ошибку. >>> import apache_beam Traceback (most recent call last): File "<stdin>", line 1, in <module> ...
? У меня точно такая же проблема, но не следите за тем, как это увеличивает параллелизм.
абота с потоковыми данными (2017-09-08_03_55_43-9675407418829265662) с помощьюApache Beam SDK for Java 2.1.0 не будет масштабироваться после 1 Worker даже с растущей очередью pubsub (сейчас 100 тыс. недоставленных сообщений) - есть ли у вас идеи ...
Я приветствовал бы обновление подхода к динамическим именам таблиц для Python BigQuerySink. Это мешает мне создавать поэтапные шаблоны, так как имя таблицы не оценивается во время выполнения.
льку у меня работает работающий статический поток данных, я хотел бы создать шаблон из этого, чтобы позволить мне легко повторно использовать поток данных без какой-либо командной строки. ПослеСоздание ...
DoFn.
рабатываю лучевой конвейер для бегуна потока данных. Мне нужна ниже функциональность в моем случае использования. Прочитайте входные события из темы Кафки. Каждое значение сообщения Кафки получено[userID, Event] пара.Для каждогоuserIDМне нужно ...
Вариант 3: обработка в пакетном режиме, запускаемая из внешнего источника. Этот подход вводит задержку по сравнению с вариантами 1 и 2, поскольку конвейер должен запуститься до начала обработки. Здесь вы можете запустить событие из вашей исходной файловой системы, чтобы запланировать или немедленно запустить процесс потока данных. Этот вариант лучше всего подходит для низкочастотных обновлений файлов большого размера.
я есть каталог в GCS или другой поддерживаемой файловой системе, в которую новые файлы записываются внешним процессом. Я хотел бы написать потоковый конвейер Apache Beam, который постоянно следит за этим каталогом на предмет новых файлов, читает ...
в качестве выходного пункта назначения. Дайте мне знать, если вы хотите больше информации об этом бите.
ствуйте, я очень смущен динамическим назначением файлов API, и нет документов, так что я здесь. Ситуация у меня есть PCollection, и он содержит события, принадлежащие к различным разделам. Я хочу разделить их и записать в разные папки в ...