Как вы сохраняете спокойствие, когда производственная система выходит из строя? [закрыто]


26

Это случилось с большинством из нас ...

Вы приходите на работу один день. Все кажется нормальным - солнце светит, птицы щебечут, но по дороге на работу вы замечаете пару странных вещей, напоминающих вам кота дежавю в Матрице.

Вы попадаете в офис, и звонит много телефонов - но может случиться так, что они продвигают новые продажи. Вы оседаете, когда замечаете темное облако, нависающее над вами.

Это займет у вас пару мгновений, но вы поймете, что облако - это ваш босс. Обычно он проверяет вас каждое утро со своим "Soooo Peeeeter, как насчет этих отчетов TCP / IP?" рутина, но сегодня он забыл все о привычках и грубо вторгся в ваше личное пространство. Никакого "Доброго утра", только слюни, хрюканье и ругательства. Он напоминает вам немного неандертальца, который пытается убежать от киберзубого тигра, страх и паника - все это сжимается в плотный шар. Вы пытаетесь расшифровать новый язык, который он создал со вчерашнего дня, и начинаете понимать, что за ночь произошло что-то плохое - производственная система вышла из строя.

Теперь ваша система обычно используется клиентами в обычное рабочее время с 9 до 5, но по какой-либо причине вы не получали никаких предупреждений о своем звуковом сигнале (для людей младше 30 лет - звуковой сигнал был похож на мобильный телефон, который мог только звонить и скажу кто тебе гудил). Вам нужно помнить, чтобы зарядить его в следующий раз.

Итак, сейчас 8:45 утра, и система ДОЛЖНА быть запущена в 9 утра. Каждые 10 секунд ваш босс издает еще одно проклятие, которое сообщает вам, что у другого клиента возникают проблемы с подключением к системе. Кроме того, несколько менеджеров по работе с клиентами теперь нависают над вашим боссом, пытаясь заставить его понять, как клиенты действительно ДЕЙСТВИТЕЛЬНО терпят

Все зависит от вас, чтобы система была запущена как можно скорее, и в то же время препятствует вашему прогрессу, постоянно отвлекая вас.

Как вы сохраняете хладнокровие в такой ситуации?


34
Шаг первый: составьте сообщение из 300 слов на сайте programmers.stackexchange.
Куби

8
Не сказать, что это происходит прямо сейчас. Подождите, дайте мне проверить ...
Mag20

1
Эта проблема уникальна для разработчиков? Если что-то, за что вы отвечаете, не работает, вы должны быть в состоянии справиться с давлением независимо от того, что это за «вещь».
ChrisF

1
Я обнаружил, что по собственному опыту очень немногие программисты, большие и малые, проводят какие-либо учения по аварийному восстановлению. Я бы положил это вашему боссу. Если что-то вы делаете, вы знаете, чего ожидать, и вы можете почувствовать время отклика. Вы также можете оценить возможность автоматизации любого из процессов. Что произойдет, если вы потеряете власть? Что произойдет, если в офисе начнется пожар, есть ли у вас место вне офиса? Размещены ли ваши серверы дома или снаружи и т. Д. Действительно, вам необходимо подчеркнуть необходимость разработки плана действий в чрезвычайных ситуациях.
Пустынная планета

3
Это читается как начало записи на TheDailyWTF!
Грант Пэйлин

Ответы:


43

В сложившейся ситуации попросите вашего босса помочь вам, удерживая всех остальных от вас (что дает ему возможность заняться чем-то еще).

Когда вы снова включите его, попросите вашего начальника о встрече, чтобы оценить и установить процедуры, позволяющие избежать повторения этого.


1
+1. Тренировки по восстановлению после стихийного бедствия являются хорошими способами оценить реакции и время реакции. Жаль, я не вижу достаточно этого сделано.
Пустынная планета

@DP да, но мы не можем этого сделать, потому что это будет означать, что люди и оборудование не будут доступны для реальных чрезвычайных ситуаций во время учений (да, я слышал этот аргумент не раз). Конечно , если бы там было достаточное количество людей и оборудования, вы можете тренировать одну команду на одном наборе , а другой дежурит ...
jwenting

@jwenting звучит как экономия на пожарной сигнализации.

9

Первое, что нужно сделать, это убрать отвлекающие факторы как можно вежливее. Никто не может работать с кем-то, кто говорит вам на слух, насколько это плохо для ваших клиентов. Это, конечно, легче сказать, чем сделать, если ваш начальник - маньяк, но если это так, вы все равно можете подумать о поиске другой работы.

Затем проведите быструю оценку реальных потерь, которые вызывает ошибка, и того, как (если вообще возможно) ее можно быстро устранить. Приложив немного практики, вы также можете быстро проверить файлы журналов, которые вам понадобятся для формирования плана действий.

Если проблема сложная, сконцентрируйтесь на самой серьезной ее части. Подумайте на два или три шага вперед, прежде чем приступить к действиям Кроме того, убедитесь, что вы знаете, как отказаться от любого плана, прежде чем действовать.

И самое главное: не паникуйте!


7

Подобные ситуации распространены в промышленных системах управления. Производственная линия останавливается посреди ночи, компания обычно теряет сотни или даже тысячи долларов в минуту , и они смотрят на вас, чтобы решить проблему. Вы справляетесь с этим так:

  1. Объясните им, что вы знаете
  2. Объясните, что вы не знаете (но нужно знать, чтобы решить проблему)
  3. Объясните, как вы узнаете, чего не знаете
  4. Дайте им оценку того, сколько времени это займет (используйте диапазон)
  5. Игнорируйте все вокруг, пока вы сосредоточены на выполнении своего плана

6

Во-первых, нужно многократно практиковать аварийное восстановление (без людей, стоящих через плечо), чтобы вы точно знали, какие шаги необходимо предпринять, чтобы диагностировать и устранить проблему, не прибегая к вопросам SO, чтобы выяснить, что делать. Когда вы почувствуете уверенность в своих навыках восстановления, давление и стресс станут намного ниже.

Следующее - избавиться от людей, пока вы работаете. Твой босс хочет что-то, с чем он может пойти к своему боссу. Дайте им некоторую информацию о том, что вы собираетесь делать и сколько времени это займет, а затем регулярно делайте отчеты о ходе работы, особенно если вы найдете что-то, что означает, что это займет значительно больше времени, чем вы им сказали. Да, отчеты о проделанной работе отнимают время на исправление, но боссы и пользователи отнимают еще больше времени. Я каждый раз хожу за отчетами о проделанной работе. Когда они будут уверены, что вы будете поддерживать их в актуальном состоянии, они будут доверять вам больше выполнять вашу работу и больше оставлять вас в покое.

Если пользователи будут заблокированы в течение некоторого времени, отправьте им электронное письмо, если это вариант, или разместите на веб-сайте уведомление о том, что сайт закрыт на техническое обслуживание, и когда они смогут повторить попытку. (Возможно, это одна из задач, которую вы можете дать своему боссу, чтобы найти кого-то, кто мог бы его не трогать.) Люди менее раздражены тем, что не могут войти в систему, когда знают, что кто-то работает над проблемой. Когда все исправлено, если вы отправили электронное письмо, отправьте электронное письмо той же группе, чтобы сообщить, что оно исправлено. Не могу сказать, сколько раз я видел, как люди забывали об этом, и пользователи все еще думают, что не могут войти, когда могут. Цель состоит не только в том, чтобы начать работу, но и в том, чтобы люди снова работали с системой.

Дышите глубоко (глубокие вдохи успокаивают) и погрузитесь в проблему. Хорошо записывать то, что вам нужно, где-то, потому что в чрезвычайной ситуации иногда синапсы вашего мозга не получают информацию так же быстро, как обычно. Вы не хотите выглядеть как идиот, бормочущий: «Я знаю, у нас есть журнал, где, черт возьми, это?»

Если вы работаете, где поддерживаете производственные системы, лучше всего быть тем человеком, который хорошо реагирует в чрезвычайной ситуации в целом. Я не уверен, что вы можете узнать это на самом деле. Если кто-то верхом на лошади перед вами упал (не совсем случайный пример, взятый из моей жизни) и лежал, истекая кровью на земле, вы тот человек, который стоит там с открытым ртом или тот кто вызывает скорую помощь, накладывает повязку на кровотечение и дает указание кому-нибудь поймать лошадь? Если вы первый тип людей, возможно, это не то, что вам нужно.


2

Скажите им, что это хорошая причина, почему вам нужен резервный сервер, и под этим я подразумеваю второй сервер, который работает так же, как основной, на который можно сразу переключиться, если первый выйдет из строя.


Я видел включенный сервер резервного копирования, и у него была та же проблема, что и у основного сервера. Это удвоило стоимость аппаратного обеспечения, добавило к стоимости конфигурации и привело к полной трате затрат. Если вы работаете с высокой доступностью, то конечно, но вам нужно правильно подобрать аппаратное обеспечение в соответствии с проблемой.
Скотт Уитлок

один (крайний) пример системы резервного копирования, подверженной той же ошибке, что и основная система, - Ariane 5 Flight 501
Andre Holzner,

2

Это достаточно плохо, когда вы окружены со всех сторон людьми, которые сердятся на вас за проблему, которую вы создали, хотя это вдвое хуже, когда это проблема, которую вы не создали. Мне неоднократно случалось, что клиент просто плохо его настраивал, что означает, что ошибка заключается в том, что он общается с клиентом (будь то ошибка клиента в том, что он не слушает, или в том, что маркетолог не объясняет хорошо, вы никогда не узнаете).

Как вы объясните, что они облажались? Никогда не простая задача, особенно когда ваш начальник дышит вам в шею, потому что он не знает ничего лучше, чем предполагать, что клиент всегда прав.

Так как же вы сохраняете спокойствие в такой ситуации? Вежливо напомните своему боссу, что чем раньше вы приступите к работе, тем быстрее эта проблема будет решена.


1

Видя это событие как возможность показать, насколько я ценен (для бизнеса), как можно быстрее возобновив работу производственной системы (если не раньше 9 утра ;-)).

Очевидно, надеясь, что я не сломал это во-первых ;-)


1
  • дерьмо случается
  • должно быть решение проблемы
  • если кто-то в мире знает решение, я могу быть одним из них
  • если нет решения, паника не помогает
  • опять шіт бывает

0

Обязательно попросите своего босса, что вы вернетесь к нему, когда решите проблему; хотя в подобных ситуациях руководство обычно вовлекает других людей, чтобы решить его как можно скорее, а затем - деа, с «заинтересованным» лицом позже ... Это норма для любой фирмы независимо от отрасли; Что касается бизнеса, то Клиент обычно является Королем!


0

Подобные ситуации только побуждают меня иметь подробную документацию обо всем и тщательный план действий в любой ситуации.

Даже если мы не можем предсказать все возможные проблемы, но мы можем отстать, быть более подготовленными, организованными и задокументированными.


1
Я никогда не решал производственную проблему (то есть отключение системы) с помощью документации.
Марси

1
Нет, но если вам нужно что-то искать, например, спецификации, определения таблиц, настройки сервера, стоит документировать это.
crosenblum

0

Я потратил 8 лет на техобслуживание бомбардировщиков B52G в 5-минутном оповещении о Третьей мировой войне. Это ставит все в перспективу для меня.

Важна неэффективная система производства, но она не убьет миллионы или миллиарды людей.

Узнайте, что не так, найдите причину, устраните ее. Установить четкие связи с теми, кто имеет значение, и держать их в курсе. Сообщите своему боссу, что вы делаете, и когда вы сможете обновить его, вы сможете предотвратить непрерывную партию сообщений и разговоров "все ли исправлено".

сделайте посмертное вскрытие и выясните, как предотвратить и ограничить последствия таких инцидентов в будущем.

Если вы разговариваете по телефону, разряженная батарея на мобильном телефоне или бипере крайне непрофессиональна. Это составленный общий сценарий, но если бы это случилось с человеком, работающим на меня, было бы серьезное обсуждение, и если бы это повторилось, они больше не работали бы на меня. Да, я крутой

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.