Ежегодное аварийное восстановление в Cassandra

#cassandra

#cassandra

Вопрос:

Чтобы удовлетворить бизнес-требования ежегодных мероприятий по аварийному восстановлению, есть ли хорошие предложения по настройке Cassandra в конфигурации (3node-dc1) (3node-dc2)?

Упражнение заключается в имитации активации DR, но рабочая рабочая нагрузка по-прежнему использует DC1 для обслуживания.

В настоящее время DC1 является основным контроллером домена для обработки рабочей нагрузки, DC2 запускает spark analytics только на узле Cassandra, никакой другой рабочей нагрузки.

Ответ №1:

Используете ли вы облако (например, AWS, облачные сервисы Google) или используете базу данных на выделенном оборудовании? Вы упомянули 2 центра обработки данных, являются ли они частью одного кластера?

Было бы лучше, если бы вы были готовы к любым непредвиденным обстоятельствам, а не к специальной конфигурации в соответствии с вашим ежегодным упражнением DR.:

  • иметь периодические и автоматические резервные копии,
  • в нашем случае мы делаем полные ежедневные снимки, хранящиеся на S3, с политиками истечения срока действия (только последние 7 ежедневных резервных копий, последние 4 еженедельных резервных копии, последние 3 ежемесячных резервных копии)
  • убедитесь, что резервные копии можно восстановить, и обычно это делается на временных экземплярах AWS EC2
  • тесты или исследования в восстановленных экземплярах не взаимодействуют с производительным кластером, после завершения теста экземпляры завершаются

Для получения более подробной информации коллега выступил с докладом на саммите Cassandra 2016, в котором более подробно рассказал о нашем процессе.

Комментарии:

1. Благодаря этому 2 центра обработки данных работают локально с выделенным оборудованием. И они собирают большой кластер. (Dc2 используется для задания apache spark в pace time). Мне нравится ваша идея о тестировании резервного восстановления с использованием отдельных узлов.