Результаты поиска по запросу "google-cloud-dataflow"
Как получить список элементов из PCollection в Google Dataflow и использовать его в конвейере для цикла записи трансформаций?
Я использую Google Cloud Dataflow с Python SDK.Я бы хотел :Получить список уникальных дат из мастер-коллекции PCollectionВыполните циклическое переключение п...
Спасибо @ThomasSchmidt. Я надеюсь, что Google работает больше, потому что это слишком далеко от двух других основных облачных компаний
тоящее время я работаю над заданием ETL Dataflow (используя Apache Beam Python SDK), которое запрашивает данные из CloudSQL (сpsycopg2 и обычайParDo) и пишет это в BigQuery. Моя цель - создать шаблон потока данных, который я могу запустить из ...
помог. По сути, превратил застрявший конвейер в рабочий без какого-либо вмешательства.
нимаю данные через pub / sub в конвейер потока данных, который работает в неограниченном режиме. Данные в основном являются координатами с метками времени, с...
Привет, Крис. Извините, что проигнорировал ваш предыдущий ответ. У меня есть упрощенная установка для подтверждения концепции мастерства. Я обошел конфликт, разделив проекты (как в моем случае, я имел дело с издателем Pub / Sub и проектом Dataflow). Это действительно не оптимально, но пока подойдет. Спасибо за внимание, я буду следить за этой проблемой.
кже поднял вопрос GitHub для этого - https://github.com/googleapis/google-cloud-java/issues/4095 [https://github.com/googleapis/google-cloud-java/issues/4095]) У меня есть последние версии следующих 2 зависимостей для Apache Beam: Зависимость 1 ...
В противном случае вам просто нужно использовать Beam с версией выпуска> = 2.0.0.
бовал пример кодаSortValues [https://beam.apache.org/documentation/sdks/java-extensions/#sorter] преобразовать с помощьюDirectRunner на локальной машине (Windows) PCollection<KV<String, KV<String, Integer>>> input = ... ...
? У меня точно такая же проблема, но не следите за тем, как это увеличивает параллелизм.
абота с потоковыми данными (2017-09-08_03_55_43-9675407418829265662) с помощьюApache Beam SDK for Java 2.1.0 не будет масштабироваться после 1 Worker даже с растущей очередью pubsub (сейчас 100 тыс. недоставленных сообщений) - есть ли у вас идеи ...
Параметризованный тип вывода потока данных в файл avro
У меня есть конвейер, который успешно выводит файл Avro следующим образом:
, Вы уже столкнетесь с проблемой при локальном построении графика выполнения конвейера (> 1 часа, задание еще не отправлено) и может превысить ограничение в 10 МБ для API потока данных. Я бы использовал этот пример для небольшого количества больших файлов и альтернатив, которые я привел в своем ответе для многих маленьких файлов. Если в вашем случае использования много больших файлов, я бы попытался преобразовать его в одну из других управляемых ситуаций.
ел, что на этот вопрос ответили ранее о переполнении стека ...