Быстрый для небольших файлов

#hadoop #cassandra-0.7 #brisk

#hadoop #кассандра-0.7 #быстрый

Вопрос:

Я новичок в Cassandra и Hadoop. В поисках интеграции двух продуктов я наткнулся на Brisk. Из описания я понимаю, что Brisk заменяет HDFS для CassandraFS. Итак, эта замена является решением проблемы с небольшими файлами в Hadoop? Если да, то как насчет больших файлов? В настоящее время мне нужно реализовать хранилище ресурсов, содержащее как большие двоичные файлы данных с их метаданными, так и небольшие файлы, такие как изображения.

Ответ №1:

На самом деле это и то, и другое (хотя я думаю, что Brisk теперь превратился в коммерческий продукт DataStax Enterprise и сам по себе активно не разрабатывается).

Brisk включает в себя CassandraFS (cfs), который является заменой HDFS, поэтому поддерживает большие файлы. Под капотом они разбиваются на фрагменты и хранятся в строках / столбцах Cassandra.

Для небольших файлов вы можете хранить данные в собственных строках Cassandra вместо CassandraFS и вместо этого запускать задания Hadoop по строкам.