Хотя это не совсем то задание, которое мне было дано, мне пришлось оправиться от вынужденного простоя.
Раньше я был SA для довольно крупного финансового сайта. Мы знали наши системы внутри и снаружи, имели централизованное ведение журналов и отличные инструменты для их просмотра.
Внезапно (естественно, очень близко к крайнему сроку) все мобильные телефоны сходят с ума от тревожных сообщений. Убедитесь, что сайт не работает, и все сотрудники SA отказываются от своих действий и начинают расследование.
Журналы Apache были в порядке, база данных не выдавала никаких ошибок, а кэши вращались просто отлично. Множество свободных ресурсов, сеть была в порядке, и недавних развертываний не было.
Через 10 минут я узнаю, что один из разработчиков получил доступ к сайту и добавил die (); в неизвестном модуле, связанном с генерацией страниц.
Другими словами, программное обеспечение сделало то, что ему было сказано, и не было никакой информации журнала, которая бы помогла.
Гроссмейстер для компании, которая управляла сайтом, ухмыльнулся и сказал, что хочет на нас посмотреть. Я сказал ему, чтобы он отошел, а не трогал мои производственные серверы, чтобы у нас были отличные планы аварийного восстановления, но некомпетентность его разработчика не позволила реализовать ни один из этих планов.
Если он хочет проверить наше время отклика, он должен был, по крайней мере, обсудить это с техническим директором и спросить, может ли он сделать это «когда-нибудь сегодня» или «на этой неделе». Таким образом, никто бы не разозлился, и мы не потратили бы впустую время, споря об этом.
Все мероприятие было одним из самых непрофессиональных, с которыми я когда-либо сталкивался.