хранение массивных данных упорядоченных временных рядов в больших производных

Я пытаюсь выяснить, что на самом деле представляют собой эти новые запутанные хранилища данных, такие как bigtable, hbase и cassandra.

Я работаю с огромными объемами данных фондового рынка, миллиардами строк данных о ценах и котировках, которые могут добавлять до 100 гигабайт каждый день (хотя эти текстовые файлы часто сжимаются как минимум на порядок). Эти данные в основном представляют собой несколько чисел, две или три короткие строки и метку времени (обычно уровень в миллисекундах). Если бы мне пришлось выбирать уникальный идентификатор для каждой строки, мне пришлось бы выбирать всю строку (поскольку обмен может генерировать несколько значений для одного и того же символа в одну и ту же миллисекунду).

Я полагаю, самый простой способ отобразить эти данные в Bigtable (ям, включая его производные) по имени символа и дате (которые могут возвращать очень большой временной ряд, более миллиона точек данных ненеслыханно). Из их описания видно, что с этими системами можно использовать несколько ключей. Я'м также предполагая, что десятичные числа не являются хорошими кандидатами на ключи.

Некоторые из этих систем (например, Cassandra) утверждают, что могут выполнять запросы диапазона. Смогу ли я эффективно запросить, скажем, все значения MSFT за определенный день, с 11:00 до 13:30?

Что если я захочу выполнить поиск по ВСЕМ символам за определенный день и запросить все символы с ценой от 10 до 10,25 долл. (Поэтому яm ищет значения и хочет, чтобы ключи возвращались в результате)?

Что если я захочу получить два временных ряда, вычесть одно из другого и вернуть два временных ряда и их результат, придется ли мне выполнять его логику в моей собственной программе?

Чтение соответствующих статей, кажется, показывает, что эти системы не очень хорошо подходят для массивных систем временных рядов. Однако, если такие системы, как карты Google, основаны на них, я думаю, что временные ряды также должны работать. Например, представьте, что время - это ось X, а цены - как ось Y, а символы - как названные местоположения - внезапно выглядит, что bigtable должен быть идеальным хранилищем для временных рядов (если вся земля может быть сохранена, извлечена , увеличенные и аннотированные, данные фондового рынка должны быть тривиальными).

Может ли какой-нибудь эксперт указать мне правильное направление или устранить любые недоразумения.

Спасибо

Ответы на вопрос(6)

Ваш ответ на вопрос