хранение массивных данных упорядоченных временных рядов в больших производных

Я пытаюсь выяснить, что на самом деле представляют собой эти новые запутанные хранилища данных, такие как bigtable, hbase и cassandra.

Я работаю с огромными объемами данных фондового рынка, миллиардами строк данных о ценах и котировках, которые могут добавлять до 100 гигабайт каждый день (хотя эти текстовые файлы часто сжимаются как минимум на порядок). Эти данные в основном представляют собой несколько чисел, две или три короткие строки и метку времени (обычно уровень в миллисекундах). Если бы мне пришлось выбирать уникальный идентификатор для каждой строки, мне пришлось бы выбирать всю строку (поскольку обмен может генерировать несколько значений для одного и того же символа в одну и ту же миллисекунду).

Я предполагаю, что самый простой способ отобразить эти данные на bigtable (я включая его производные) - это по имени и дате символа (которые могут возвращать очень большой временной ряд, более миллиона точек данных не являются неслыханными). Из их описания видно, что с этими системами можно использовать несколько ключей. Я также предполагаю, что десятичные числа не являются хорошими кандидатами на ключи.

Некоторые из этих систем (например, Cassandra) утверждают, что могут выполнять запросы диапазона. Смогу ли я эффективно запросить, скажем, все значения MSFT за определенный день, с 11:00 до 13:30?

Что если я захочу выполнить поиск по ВСЕМ символам за определенный день и запросить все символы с ценой от 10 до 10,25 долларов (поэтому я ищу значения и хочу, чтобы в результате были возвращены ключи)?

Что если я захочу получить два временных ряда, вычесть одно из другого и вернуть два временных ряда и их результат, придется ли мне выполнять его логику в моей собственной программе?

Чтение соответствующих статей, кажется, показывает, что эти системы не очень хорошо подходят для массивных систем временных рядов. Однако, если такие системы, как карты Google, основаны на них, я думаю, что временные ряды также должны работать. Например, представьте, что время - это ось X, а цены - как ось Y, а символы - как названные местоположения - внезапно выглядит, что bigtable должен быть идеальным хранилищем для временных рядов (если вся земля может быть сохранена, восстановлена , увеличенные и аннотированные, данные фондового рынка должны быть тривиальными).

Может ли какой-нибудь эксперт указать мне правильное направление или устранить любые недоразумения.

Спасибо

Ответы на вопрос(6)

Ваш ответ на вопрос