#hbase
#hbase
Вопрос:
Я новичок в HBase. Мне нужно спроектировать мою таблицу. Я хочу поиграть со следующей информацией:
На дату XX-XX-XXXX слово «ПРИВЕТ» находится в документе 2,3,4, а вес каждого документа равен 12,45,36 — Мои исходные данные: doc: D заголовок: «я люблю картошку», вес: W, дата: D
Я создал таблицу с, строка: слово, столбец: дата, значение: документ, Но я не могу сохранить несколько строк с одной и той же датой.
Можем ли мы создать несколько семейств столбцов для таблицы? Какой может быть наилучший способ разработки схемы?
Большое спасибо
Комментарии:
1. Я нашел решение, значением Hbase может быть сериализованный список массивов<Целое число>, который может содержать идентификатор документов.
2. Если вам больше не нужен этот вопрос, закройте его.
Ответ №1:
Является ли дата наиболее релевантным битом информации для документа? как вы говорите, вы можете хранить только один документ на дату с вашей заданной схемой. Альтернативой было бы создать составной ключ, например: DATE_TIME_DOCUMENT-ID. Идентификаторы документа могут быть sha1 содержимого для обеспечения уникальности. И, если вы хотите, чтобы недавние документы были легко доступны для извлечения, вы также можете инвертировать показатель ДАТЫ И ВРЕМЕНИ (например, Long.MAX_VALUE — временная метка документа). Если вас не волнует дата, то документы можно хранить только по их идентификатору.