Результаты поиска по запросу "apache-beam"

2 ответа

Если вам нужно / требуется больше управления, контроля, планирования и т. Д. Для задач с большими данными, тогда Cloud Composer добавляет значительную ценность. Если вы время от времени выполняете простую задачу Cloud Dataflow по требованию, Cloud Composer может оказаться излишним.

шу прощения за этот наивный вопрос, но я хотел бы получить некоторые разъяснения о том, является ли Cloud Dataflow или Cloud Composer подходящим инструментом для работы, и мне неясно из документации Google. В настоящее время я использую Cloud ...

2 ответа

Привет, Крис. Извините, что проигнорировал ваш предыдущий ответ. У меня есть упрощенная установка для подтверждения концепции мастерства. Я обошел конфликт, разделив проекты (как в моем случае, я имел дело с издателем Pub / Sub и проектом Dataflow). Это действительно не оптимально, но пока подойдет. Спасибо за внимание, я буду следить за этой проблемой.

кже поднял вопрос GitHub для этого - https://github.com/googleapis/google-cloud-java/issues/4095 [https://github.com/googleapis/google-cloud-java/issues/4095]) У меня есть последние версии следующих 2 зависимостей для Apache Beam: Зависимость 1 ...

1 ответ

, Вы уже столкнетесь с проблемой при локальном построении графика выполнения конвейера (> 1 часа, задание еще не отправлено) и может превысить ограничение в 10 МБ для API потока данных. Я бы использовал этот пример для небольшого количества больших файлов и альтернатив, которые я привел в своем ответе для многих маленьких файлов. Если в вашем случае использования много больших файлов, я бы попытался преобразовать его в одну из других управляемых ситуаций.

ел, что на этот вопрос ответили ранее о переполнении стека ...

ТОП публикаций

1 ответ

Спасибо @ThomasSchmidt. Я надеюсь, что Google работает больше, потому что это слишком далеко от двух других основных облачных компаний

тоящее время я работаю над заданием ETL Dataflow (используя Apache Beam Python SDK), которое запрашивает данные из CloudSQL (сpsycopg2 и обычайParDo) и пишет это в BigQuery. Моя цель - создать шаблон потока данных, который я могу запустить из ...

1 ответ

https://issues.apache.org/jira/browse/BEAM-3198

таемся написать в Big Query, используя Apache Beam и avro. Следующее, кажется, работает нормально: p.apply("Input", AvroIO.read(DataStructure.class).from("AvroSampleFile.avro")) .apply("Transform", ParDo.of(new CustomTransformFunction())) ...

1 ответ

Предположим, что порядок группировки не важен, вы можете просто сгруппировать внутри

аюсь сделать что-то вроде этого:Пакетная сборка ПК в Beam / Dataflow [https://stackoverflow.com/questions/44348085/batch-pcollection-in-beam-dataflow] Ответ в приведенной выше ссылке на Java, а язык, с которым я работаю - Python. Таким образом, ...

0 ответов

github.com/spring-cloud/spring-cloud-gcp/issues/442

но приложение весенней загрузки 2.0.0.RC с Google Dataflow и другими службами и развернуто с помощью следующей команды mavenmvn appengine:deploy, Сборка проходит успешно в AppEngine, и создается экземпляр. Проблема в приборной панели App Engine: ...

1 ответ

 строка, то, похоже, нужно обернуть 1-й аргумент в

у записать в файл GS, но я не знаю имя файла во время компиляции. Его имя основано на поведении, которое определяется во время выполнения. Как я могу продолжить?

1 ответ

 в качестве выходного пункта назначения. Дайте мне знать, если вы хотите больше информации об этом бите.

ствуйте, я очень смущен динамическим назначением файлов API, и нет документов, так что я здесь. Ситуация у меня есть PCollection, и он содержит события, принадлежащие к различным разделам. Я хочу разделить их и записать в разные папки в ...

2 ответа

Вариант 3: обработка в пакетном режиме, запускаемая из внешнего источника. Этот подход вводит задержку по сравнению с вариантами 1 и 2, поскольку конвейер должен запуститься до начала обработки. Здесь вы можете запустить событие из вашей исходной файловой системы, чтобы запланировать или немедленно запустить процесс потока данных. Этот вариант лучше всего подходит для низкочастотных обновлений файлов большого размера.

я есть каталог в GCS или другой поддерживаемой файловой системе, в которую новые файлы записываются внешним процессом. Я хотел бы написать потоковый конвейер Apache Beam, который постоянно следит за этим каталогом на предмет новых файлов, читает ...