Предупреждение в splunk на основе условия исправления

#amazon-web-services #monitoring #amazon-eks #splunk #splunk-query

Вопрос:

Я пытаюсь создать предупреждение в splunk таким образом, чтобы, если в журналах присутствует выражение «Произошла ошибка из-за подключения», и если это не будет исправлено автоматически через 5 минут, оно должно сгенерировать предупреждение.

Здесь исправление может быть, если «Ошибка произошла из-за подключения» не произойдет в течение следующих пяти минут после создания предупреждения, это означает, что проблема устранена. Возможно ли это? пожалуйста, руководство.

Ответ №1:

Если сообщение «Ошибка возникла из-за подключения» появляется каждые 5 минут, пока проблема не будет устранена, то вы сможете обнаружить исправление, подсчитав количество сообщений за последние 6 минут.

 index=foo "Error occured due to connection" earliest=-6m
| stats count
| where count > 1
 

Комментарии:

1. мы можем получить несколько сообщений за 5 минут. Это похоже на то, что мы получаем ошибку подключения, которая может быть устранена автоматически. В основном мы даем ему время 5 минут на самоисцеление, затем на 6-й минуте мы можем проверить, является ли количество >0. Есть ли способ добавить сюда 6-ю минуту вместо последних 6 минут? Что мы должны сделать, чтобы проверить, что этот сценарий проверен, когда у нас есть ошибка подключения за последние 5 минут

2. Или мы можем считать через 6 минут > считать через 5 минут

3. можно ли рассчитать время. Предположим, что мое текущее время 27 сентября 2021 года 09:45:50, тогда я хочу рассчитать данные за 5 минут до этого, т. е. с 9.40.50 до 9:45:50, и данные за время с 9:35:50 до 9:40:50… Можете ли вы помочь мне в таком вопросе.

4. можете ли вы, пожалуйста, помочь

Ответ №2:

Неясно, каковы желаемые результаты, поскольку требования постоянно меняются. Возможно, это поможет решить проблему.

 index=foo "Error occured due to connection" earliest=-15m
| bin span=5m _time
| stats count by _time
| ```something else to get the final results```