Вариант 3: обработка в пакетном режиме, запускаемая из внешнего источника. Этот подход вводит задержку по сравнению с вариантами 1 и 2, поскольку конвейер должен запуститься до начала обработки. Здесь вы можете запустить событие из вашей исходной файловой системы, чтобы запланировать или немедленно запустить процесс потока данных. Этот вариант лучше всего подходит для низкочастотных обновлений файлов большого размера.

я есть каталог в GCS или другой поддерживаемой файловой системе, в которую новые файлы записываются внешним процессом.

Я хотел бы написать потоковый конвейер Apache Beam, который постоянно следит за этим каталогом на предмет новых файлов, читает и обрабатывает каждый новый файл по мере его поступления. Это возможно?

Ответы на вопрос(2)

Ваш ответ на вопрос