Почему AWS DMS время от времени сталкивается с различного рода ошибками?

#amazon-web-services #aws-dms

#amazon-веб-сервисы #aws-dms

Вопрос:

Важными моментами в этом вопросе являются:

  • Иногда. Он работает в течение некоторого времени и сталкивается с ошибками в другое время.
  • Ошибки встречаются повсюду
    • Ошибка сбоя соединения S3 ( unable to connect to S3 endpoint , failed to list S3 bucket ), которая на самом деле не должна происходить, потому что она в основном внутренняя
    • Ошибка подключения к исходной базе данных, когда исходная база данных является локальной и подключена к AWS через DX
    • Есть ошибки, но консоль показывает, что репликация продолжается, отсутствует большой объем данных
    • Источник DB говорит connection is busy , но нагрузка была довольно легкой
    • Исходная база данных сообщает, что есть ошибки, связанные с LSN
    • Некоторые таблицы просто не будут работать, но другие в порядке, это обычные таблицы, ничего особенного
    • Использование оперативной памяти сильно колеблется, процессор остается высоким, загрузка диска остается очень высокой даже долгое время после полной загрузки

Помните, что какое-то время он работает нормально, а затем выходит из строя без уважительной причины.

Ответ №1:

Я много искал в Google этот очень странный случай и связался с экспертами AWS и службой поддержки, но безрезультатно.

Затем я увидел t2 экземпляр, который использовался в качестве экземпляра репликации, и подумал, что, возможно, это и было источником проблем.

…И ЭТО БЫЛО.

Когда мы перешли t2 на r5 , все проблемы исчезли.

Похоже, что после того, как кредиты сгорели, DMS не смог справиться с внезапным регулированием мощности процессора, и это привело к различным и случайным проблемам.

Больше ничего не изменилось. Просто все задачи теперь перемещены в r5 экземпляр и выполняются нормально.

Итак, я знаю t , что это «проблема». ДЕРЖИТЕСЬ ПОДАЛЬШЕ ОТ T2 / T3, если вы действительно не знаете, с чем можете столкнуться.

Комментарии:

1. Для меня иногда помогала перезагрузка, иногда ничего. После того, как олни удалил экземпляр репликации и создал новый, ошибки были устранены…