#azure #cloud #reliability
#azure #облако #надежность
Вопрос:
AFAIK Amazon AWS предлагает так называемые «регионы» и «зоны доступности» для снижения рисков частичного или полного отключения центра обработки данных. Похоже, что если у меня есть копии моего приложения в двух «регионах» и один «регион» выходит из строя, мое приложение все еще может продолжать работать, как будто ничего не произошло.
Есть ли что-то подобное в Windows Azure? Как мне устранить риск катастрофического отключения центра обработки данных с помощью Windows Azure?
Ответ №1:
В рамках одного центра обработки данных ваше приложение Windows Azure обладает следующими преимуществами:
- Выходя за рамки одного вычислительного экземпляра, ваши виртуальные машины разделяются на домены сбоев в разных физических областях. Таким образом, даже если выйдет из строя вся серверная стойка, у вас все равно будут выполняться вычисления где-то еще.
- С хранилищем Windows Azure и SQL Azure хранилище реплицируется в три раза. Это не окончательная репликация — когда возвращается вызов write, по крайней мере, в одну реплику была записана.
Хорошо, это простой материал. Что, если центр обработки данных исчезнет? Вот функции, которые помогут вам встроить DR в ваше приложение:
- Для SQL Azure вы можете настроить синхронизацию данных. Это средство синхронизирует вашу базу данных SQL Azure либо с другой базой данных SQL Azure (предположительно в другом центре обработки данных), либо с локальной базой данных SQL Server. Больше информации здесь. Поскольку эта функция по-прежнему считается функцией предварительного просмотра, вам нужно перейти сюда, чтобы настроить ее.
- Для хранилища Azure (таблиц, больших двоичных объектов) вам потребуется выполнить репликацию во второй центр обработки данных, поскольку сегодня встроенного средства нет. Это можно сделать, скажем, с помощью фоновой задачи, которая извлекает данные каждый час и копирует их в учетную запись хранилища где-нибудь в другом месте. РЕДАКТИРОВАТЬ: Согласно ответу Райана, для больших двоичных объектов и таблиц предусмотрена георепликация данных. ОДНАКО: помимо упоминания в этом сообщении в блоге в декабре и, возможно, на PDC, это не актуально.
- Для обеспечения доступности вычислений вы можете настроить Traffic Manager для балансировки нагрузки между центрами обработки данных. В настоящее время эта функция находится в CTP — посетите область бета-тестирования портала Windows Azure, чтобы зарегистрироваться.
Помните, что при использовании DR, будь то в облаке или локально, возникают дополнительные затраты (например, пропускная способность между центрами обработки данных, затраты на хранение дублирующихся данных во вторичном центре обработки данных и вычислительные экземпляры в дополнительных центрах обработки данных). .
Как и в случае с локальными средами, DR необходимо тщательно продумать и внедрить.
Комментарии:
1. Насколько изолированы разные домены сбоев? Если что-то неожиданное происходит в одном, что происходит с другими? Я спрашиваю, потому что Amazon, похоже, не смог выполнить свои обещания по изоляции, и это привело к массовому отключению — aws.amazon.com/message/65648
2. Сегодня доменами сбоев являются стойки или контейнеры. Все, включая питание ИБП, коммутаторы, балансировщики нагрузки и т.д., Является избыточным между доменами сбоев. Там нет единой точки отказа, если вы не говорите о потере всего центра обработки данных. Однако, как доказала AWS, никогда не говори «никогда».
Ответ №2:
Ответ Дэвида довольно хорош, но одна часть неверна. Для больших двоичных объектов и таблиц Windows Azure ваши данные фактически географически реплицируются сегодня между субрегионами (например, Север и юг США). Это асинхронный процесс, задержка в котором составляет около 10 минут или около того. Этот процесс также находится вне вашего контроля и связан исключительно с потерей центра обработки данных. В общей сложности ваши данные реплицируются 6 раз в 2 разных центрах обработки данных при использовании больших двоичных объектов и таблиц Windows Azure (впечатляет, не так ли?).
Если центр обработки данных был потерян, они переключат ваш DNS для хранения больших двоичных объектов и таблиц в другой субрегион, и ваша учетная запись снова появится в Сети. Это верно только для больших двоичных объектов и таблиц (не очередей, не SQL Azure и т.д.).
Итак, для настоящего аварийного восстановления вы могли бы использовать Data Sync для SQL Azure и Traffic Manager для вычислений (при условии, что вы запускаете режим горячего ожидания в другом субрегионе). Если центр обработки данных был потерян, диспетчер трафика перенаправит в новый субрегион, и вы также найдете свои данные там.
Комментарии:
1. На самом деле — для уточнения: георепликация больших двоичных объектов / таблиц упоминалась еще в декабрьском сообщении в блоге как «скоро появится» (см. Ссылку на Мой обновленный ответ), но сегодня это НЕ производственная служба.
2. Вы уверены? 😉 Зависит от того, кого вы спрашиваете, я полагаю.
3. Только что спросил команду хранилища. 🙂
Ответ №3:
Единственная ошибка, которую вы не учли, заключается в возможности репликации ошибки в центрах обработки данных. В этом случае вы можете рассмотреть возможность запуска Azure PAAS как части облачного предложения HP Cloud либо в сценарии с балансировкой нагрузки, либо при отказоустойчивости.
Комментарии:
1. Emm. Я не понимаю, о какой проблеме вы говорите. Не могли бы вы, пожалуйста, привести какой-нибудь простой пример?