#cassandra
#кассандра
Вопрос:
Я ищу инструмент для загрузки CSV в Cassandra. Я надеялся использовать RazorSQL для этого, но мне сказали, что это займет несколько месяцев.
Что такое хороший инструмент?
Спасибо
Ответ №1:
1) Если у вас есть все данные для загрузки, вы можете попробовать утилиту sstableloader (только для cassandra 0.8.x и выше) для массовой загрузки данных.Для получения более подробной информации смотрите:массовый загрузчик cassandra
2) Cassandra внедрила BulkOutputFormat для массовой загрузки данных в cassandra с помощью задания hadoop в последней версии, которая является cassandra-1.1.x и далее. Для получения более подробной информации смотрите:Массовая загрузка в Cassandra с помощью Hadoop
Ответ №2:
Я сомневаюсь, что поддержка этого инструмента очень помогла бы в этом, поскольку схема Cassandra должна отражать запросы, которые вы хотите выполнить, а не просто быть общей моделью вашего домена.
Встроенный механизм массовой загрузки для cassandra осуществляется через BinaryMemtables: http://wiki.apache.org/cassandra/BinaryMemtable
Однако, используете ли вы этот или более обычный интерфейс Thrift, вам все равно, вероятно, потребуется вручную спроектировать сопоставление из вашего CSV в Cassandra ColumnFamilies, принимая во внимание запросы, которые вам нужно выполнить. Общее сопоставление из CSV-> Cassandra может оказаться неподходящим, поскольку обычно требуются вторичные индексы и денормализация.
Комментарии:
1. Спасибо за комментарий. SimpleDB также является NoSQL, и мы осуществляли массовую загрузку с помощью RazorSQL. Они просто не поддерживают Cassandra. (пока)
Ответ №3:
-
Для Cassandra 1.1.3 и выше существует команда копирования CQL, доступная для импорта (или экспорта) данных в таблицу (или из нее). Согласно документации, если вы импортируете примерно менее 2 миллионов строк, то это хороший вариант. Он намного проще в использовании, чем sstableloader, и менее подвержен ошибкам. sstableloader требует от вас создания строго отформатированных файлов .db, тогда как команда копирования CQL принимает текстовый файл с разделителями. Документация здесь:http://www.datastax.com/docs/1.1/references/cql/COPY
-
Для больших наборов данных вам следует использовать sstableloader.http://www.datastax.com/docs/1.1/references/bulkloader . Рабочий пример описан здесь http://www.datastax.com/dev/blog/bulk-loading .