Разбиение по дате?

Мы экспериментируем с BigQuery для анализа пользовательских данных, генерируемых нашим программным приложением.

Наша рабочая таблица состоит из сотен миллионов строк, каждая из которых представляет уникальный пользовательский "сеанс". Каждое из них содержит метку времени, UUID и другие поля, описывающие взаимодействие пользователя с нашим продуктом во время этого сеанса. В настоящее время мы генерируем около 2 ГБ данных (~ 10 миллионов строк) в день.

Время от времени мы можем запускать запросы ко всему набору данных (стоимость которых составляет около 2 месяцев и растет), однако типичные запросы будут охватывать только один день, неделю или месяц. Мы обнаруживаем, что с ростом нашей таблицы наш однодневный запрос становится все более и более дорогим (как и следовало ожидать, учитывая архитектуру BigQuery)

Каков наилучший способ более эффективно запрашивать подмножества наших данных? Один из подходов, который я могу придумать, - это «разделить» данные в отдельные таблицы по дням (или неделям, месяцам и т. д.) затем запрашивают их вместе в объединении:

SELECT foo from mytable_2012-09-01, mytable_2012-09-02, mytable_2012-09-03;

Есть ли лучший способ, чем этот ???

Ответы на вопрос(2)

Ваш ответ на вопрос