#bigdata
#bigdata
Вопрос:
У нас есть система, которая создает много данных, до 1,5 миллионов записей с отметками времени, около 24 МБ, в секунду или около 2 ТБ в день.
Данные поступают из нескольких источников и имеют несколько форматов, общим является отметка времени.
В настоящее время мы сохраняем данные за 5 дней в файлах и имеем собственное программное обеспечение, которое генерирует отчеты.
Мы рассматриваем возможность создания масштабируемой системы, которая может хранить и запрашивать данные за годы.
Мы склоняемся к чему-то подобному тому, что описывает Натан Марц в » Как победить теорему CAP«, используя Hadoop / ElephantDB для долгосрочного пакетного хранения и Storm / Cassandra для уровня реального времени.
Мне интересно, может ли сообщество указать какие-либо альтернативы или предложить дальнейшее чтение?
Соответствует ли тот факт, что наши данные в основном организованы по времени, определенному типу решения?
Есть ли лучший форум, чтобы задать такой вопрос?
Спасибо
Комментарии:
1. Вам нужно делать агрегированные / пакетные отчеты, или вам также нужен какой-то доступ в режиме реального времени. Если да — пожалуйста, приведите несколько примеров шаблонов доступа
2. Нам нужны как агрегированные / пакетные отчеты, так и доступ в режиме реального времени. Обычно пользователи запрашивают отчеты, основанные на времени. Каково значение этого элемента (или этих элементов) за время t1-t2. В какое время конкретное значение элемента выходило за пределы диапазона.
3. какой размер данных должен быть объединен для одного отчета?
4. Взгляните на OpenTSDB, которая предназначена для хранения большого количества данных временных рядов. opentsdb.net/faq.html
Ответ №1:
Это сложная проблема — иметь доступ в реальном времени и масштабируемую пакетную обработку одновременно.
Хотя идеального решения не существует, я бы изучил две следующие возможности: a) Hive с разделением по времени и подразделениями по какому-либо другому ключу (например, идентификатору клиента или чему-то подобному). Это решение обеспечит вам:
Хорошую производительность при импорте данных
, хорошую пропускную способность для агрегированных отчетов
, возможно, приемлемое время доступа к одному подразделу. Хотя — это никогда не будет 1-2 секунды.
б) Быстрый. Это hadoop с кассандрой, заменяющей HDFS. Она обещала предоставить вам все, что вам нужно, хотя я ожидал бы, что производительность загрузки данных и производительность пакетных отчетов будут ниже, чем у ванильного hadoop, потому что он создан специально для этого.