но я не могу найти использование с Google Cloud. Любые примеры будут полезны.

Question

Aug 29, 2017, 11:40 AM

apache-beam dataflow google-cloud-storage google-cloud-dataflow python

но я не могу найти использование с Google Cloud. Любые примеры будут полезны.

я есть куча текстовых файлов (~ 1M), хранящихся в облачном хранилище Google. Когда я читаю эти файлы в конвейер Google Cloud DataFlow для обработки, я всегда получаю следующую ошибку:

Total size of the BoundedSource objects returned by BoundedSource.split() operation is larger than the allowable limit

Страница поиска неисправностей гласит:

Вы можете столкнуться с этой ошибкой, если вы читаете из очень большого количества файлов через TextIO, AvroIO или другой источник на основе файлов. Конкретное ограничение зависит от деталей вашего источника (например, встраивание схемы в AvroIO.Read позволит использовать меньше файлов), но оно составляет порядка десятков тысяч файлов в одном конвейере.

Означает ли это, что я должен разбивать свои файлы на более мелкие партии, а не импортировать их все сразу?

Я использую поток данных Python SDK для разработки конвейеров.

но я не могу найти использование с Google Cloud. Любые примеры будут полезны.

Ответы на вопрос(0)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

но я не могу найти использование с Google Cloud. Любые примеры будут полезны.

Ответы на вопрос(0)

Ваш ответ на вопрос

Популярные вопросы