Какой хороший инструмент для массовой загрузки данных для Cassandra

#cassandra

#кассандра

Вопрос:

Я ищу инструмент для загрузки CSV в Cassandra. Я надеялся использовать RazorSQL для этого, но мне сказали, что это займет несколько месяцев.

Что такое хороший инструмент?

Спасибо

Ответ №1:

1) Если у вас есть все данные для загрузки, вы можете попробовать утилиту sstableloader (только для cassandra 0.8.x и выше) для массовой загрузки данных.Для получения более подробной информации смотрите:массовый загрузчик cassandra

2) Cassandra внедрила BulkOutputFormat для массовой загрузки данных в cassandra с помощью задания hadoop в последней версии, которая является cassandra-1.1.x и далее. Для получения более подробной информации смотрите:Массовая загрузка в Cassandra с помощью Hadoop

Ответ №2:

Я сомневаюсь, что поддержка этого инструмента очень помогла бы в этом, поскольку схема Cassandra должна отражать запросы, которые вы хотите выполнить, а не просто быть общей моделью вашего домена.

Встроенный механизм массовой загрузки для cassandra осуществляется через BinaryMemtables: http://wiki.apache.org/cassandra/BinaryMemtable

Однако, используете ли вы этот или более обычный интерфейс Thrift, вам все равно, вероятно, потребуется вручную спроектировать сопоставление из вашего CSV в Cassandra ColumnFamilies, принимая во внимание запросы, которые вам нужно выполнить. Общее сопоставление из CSV-> Cassandra может оказаться неподходящим, поскольку обычно требуются вторичные индексы и денормализация.

Комментарии:

1. Спасибо за комментарий. SimpleDB также является NoSQL, и мы осуществляли массовую загрузку с помощью RazorSQL. Они просто не поддерживают Cassandra. (пока)

Ответ №3:

  • Для Cassandra 1.1.3 и выше существует команда копирования CQL, доступная для импорта (или экспорта) данных в таблицу (или из нее). Согласно документации, если вы импортируете примерно менее 2 миллионов строк, то это хороший вариант. Он намного проще в использовании, чем sstableloader, и менее подвержен ошибкам. sstableloader требует от вас создания строго отформатированных файлов .db, тогда как команда копирования CQL принимает текстовый файл с разделителями. Документация здесь:http://www.datastax.com/docs/1.1/references/cql/COPY

  • Для больших наборов данных вам следует использовать sstableloader.http://www.datastax.com/docs/1.1/references/bulkloader . Рабочий пример описан здесь http://www.datastax.com/dev/blog/bulk-loading .