На прошлой неделе у нас был довольно серьезный сбой, затронувший несколько сервисов, которые вывели нас из нашего SLA с клиентами. Теперь, когда все решено, я провожу посмертный обзор.
Из этого обзора я хотел бы получить внутренний документ, в котором описывается сбой, его последствия, наш ответ и решение. Я хочу придумать довольно стандартную форму для повторного использования в будущем. Я включил свои мысли ниже, но какие еще пункты должны быть включены? Если бы это был инцидент, связанный с безопасностью, что бы вы добавили?
- Сводка на уровне исполнительного руководства.
- Затронутые Услуги
- Влияние Как это повлияло на наших пользователей и SLA? Были ли затраты в долларовом выражении, пропущенные транзакции, потерянные клиенты и т. Д.?
- Продолжительность простоя Для каждой затронутой услуги, если были отклонения
- Причина Включая первичные и вторичные причины
- разрешение
- Хронология событий Уведомления, контакты с внешними поставщиками, уведомления клиентов, ответы и т. Д.
- Проблемы с нашим ответом Не все ли пошло не так, как запланировано с нашим ответом на отключение? Правильные люди уведомлены? Выполнили ли продавцы свои договорные обязательства?
- Профилактические меры Как мы можем предотвратить повторение этого сбоя или уменьшить его влияние?
- Метод обнаружения Насколько хорошо мы обнаружили этот сбой и как мы можем улучшить обнаружение в будущем?
- Изменения, которые необходимо внести в будущие ответы на сбой
Постарайтесь, чтобы сообщения были не более одного элемента и объяснения, и этот пост может быть обновлен с помощью ответов с наибольшим количеством голосов.