Результаты поиска по запросу "apache-beam"

1 ответ

 строка, то, похоже, нужно обернуть 1-й аргумент в

у записать в файл GS, но я не знаю имя файла во время компиляции. Его имя основано на поведении, которое определяется во время выполнения. Как я могу продолжить?

1 ответ

Предположим, что порядок группировки не важен, вы можете просто сгруппировать внутри

аюсь сделать что-то вроде этого:Пакетная сборка ПК в Beam / Dataflow [https://stackoverflow.com/questions/44348085/batch-pcollection-in-beam-dataflow] Ответ в приведенной выше ссылке на Java, а язык, с которым я работаю - Python. Таким образом, ...

1 ответ

https://issues.apache.org/jira/browse/BEAM-3198

таемся написать в Big Query, используя Apache Beam и avro. Следующее, кажется, работает нормально: p.apply("Input", AvroIO.read(DataStructure.class).from("AvroSampleFile.avro")) .apply("Transform", ParDo.of(new CustomTransformFunction())) ...

ТОП публикаций

1 ответ

Спасибо @ThomasSchmidt. Я надеюсь, что Google работает больше, потому что это слишком далеко от двух других основных облачных компаний

тоящее время я работаю над заданием ETL Dataflow (используя Apache Beam Python SDK), которое запрашивает данные из CloudSQL (сpsycopg2 и обычайParDo) и пишет это в BigQuery. Моя цель - создать шаблон потока данных, который я могу запустить из ...

1 ответ

, Вы уже столкнетесь с проблемой при локальном построении графика выполнения конвейера (> 1 часа, задание еще не отправлено) и может превысить ограничение в 10 МБ для API потока данных. Я бы использовал этот пример для небольшого количества больших файлов и альтернатив, которые я привел в своем ответе для многих маленьких файлов. Если в вашем случае использования много больших файлов, я бы попытался преобразовать его в одну из других управляемых ситуаций.

ел, что на этот вопрос ответили ранее о переполнении стека ...

2 ответа

Что такое Apache Beam? [закрыто]

2 ответа

Чтение CSV-заголовка с помощью Dataflow

У меня есть файл CSV, и я не знаю названия столбцов заранее. Мне нужно вывести данные в JSON после некоторых преобразований в Google Dataflow.Каков наилучший...

2 ответа

Вот

2 ответа

? У меня точно такая же проблема, но не следите за тем, как это увеличивает параллелизм.

абота с потоковыми данными (2017-09-08_03_55_43-9675407418829265662) с помощьюApache Beam SDK for Java 2.1.0 не будет масштабироваться после 1 Worker даже с растущей очередью pubsub (сейчас 100 тыс. недоставленных сообщений) - есть ли у вас идеи ...

2 ответа

Вариант 3: обработка в пакетном режиме, запускаемая из внешнего источника. Этот подход вводит задержку по сравнению с вариантами 1 и 2, поскольку конвейер должен запуститься до начала обработки. Здесь вы можете запустить событие из вашей исходной файловой системы, чтобы запланировать или немедленно запустить процесс потока данных. Этот вариант лучше всего подходит для низкочастотных обновлений файлов большого размера.

я есть каталог в GCS или другой поддерживаемой файловой системе, в которую новые файлы записываются внешним процессом. Я хотел бы написать потоковый конвейер Apache Beam, который постоянно следит за этим каталогом на предмет новых файлов, читает ...