Алгоритмы для корреляции событий/проблем

#machine-learning #artificial-intelligence #devops

Вопрос:

Мы работаем над системой, которая призвана помочь командам разработчиков, SRE, членам команды DevOps путем отладки многих хорошо известных проблем с инфраструктурой (для начала k8s) от их имени и создания подробного отчета, в котором подробно описываются особенности проблемы, возможные первопричины и четкие дальнейшие шаги для пользователей, сталкивающихся с проблемой. Короче говоря, вместо того, чтобы открывать терминал, запускать несколько команд, чтобы решить проблему, система делает это за вас и показывает это в удобном пользовательском интерфейсе. Мы планируем использовать ИИ, чтобы обеспечить лучший пользовательский интерфейс.

Вопросы: 1.Существует несколько возможных вариантов использования, таких как прогнозная аналитика, обнаружение аномалий, прогнозирование и т.д. Мы не будем анализировать журналы приложений или показатели (в будущем могут быть включены показатели). В отличие от журналов уровня приложений, журналы платформы более унифицированы. Что является хорошей отправной точкой для использования искусственного интеллекта, особенно для журналов на основе платформы?

2.Мы планируем использовать ИИ для анализа корреляций выпуска, мы Апиори, роста FP и выпуска продукции. Результат выглядит следующим образом

 | antecedent | consequent | confidence | lift | |----------------------------|-------------------| ---------- | ---- | | [Failed, FailedScheduling] | [BackOff] | 0.75 | 5.43 | | [NotTriggerScaleUp] | [FailedScheduling]| 0.64 | 7.29 | | [Failed] | [BackOff] | 0.52 | 3.82 | | [FailedCreatePodSandBox] | [FailedScheduling]| 0.51 | 5.88 |  

Рост FP-это алгоритм интеллектуального анализа данных, по результатам которого мы можем определить последовательность событий. Существует один потенциальный вариант использования: сохраните предыдущий вывод и сравните его с последним выводом, чтобы обнаружить аномальную структуру в последнем выводе. Можем ли мы использовать выходные данные для вывода о корреляциях проблем или в любом другом сценарии, который мы можем использовать?

3.Некоторые журналы кажутся неуместными, но на самом деле у них есть соединения, например, у одного хоста проблема, это повлияет на запущенные на нем приложения, период времени может быть длинным, как мы можем выяснить такого рода отношения? Любые комментарии и предложения будут с благодарностью восприняты, заранее благодарим вас.