но я не могу найти использование с Google Cloud. Любые примеры будут полезны.
я есть куча текстовых файлов (~ 1M), хранящихся в облачном хранилище Google. Когда я читаю эти файлы в конвейер Google Cloud DataFlow для обработки, я всегда получаю следующую ошибку:
Total size of the BoundedSource objects returned by BoundedSource.split() operation is larger than the allowable limit
Страница поиска неисправностей гласит:
Вы можете столкнуться с этой ошибкой, если вы читаете из очень большого количества файлов через TextIO, AvroIO или другой источник на основе файлов. Конкретное ограничение зависит от деталей вашего источника (например, встраивание схемы в AvroIO.Read позволит использовать меньше файлов), но оно составляет порядка десятков тысяч файлов в одном конвейере.
Означает ли это, что я должен разбивать свои файлы на более мелкие партии, а не импортировать их все сразу?
Я использую поток данных Python SDK для разработки конвейеров.