Авария на лучшего системного администратора [закрыто]


87

Я ищу забавные истории несчастных случаев системного администратора, которые у вас были. Удаление электронного письма генерального директора, форматирование неправильного жесткого диска и т. Д.

Я добавлю свою собственную историю в качестве ответа.



14
Это действительно больше опрос, чем вопрос. Это, вероятно, должно быть установлено в сообществе вики.
Zoredache

7
Да, это определенно должна быть вики сообщества. В смысле вопроса, тем не менее, моя любимая история - электронная почта на 500 миль - ibiblio.org/harris/500milemail.html - хотя, очевидно, это был не я.
Михай Лимбашан

500 миль просто замечательно
Хуберт Карио

Это следует называть «хуже системного администратора аварии».
Рилиндо

Ответы:


133

Мне было весело обнаружить разницу между командой linux «killall» (убивает все процессы, соответствующие указанному имени, полезно для остановки зомби) и командой Solaris «killall» (убивает все процессы и останавливает систему, полезную для остановки рабочего сервера в середина часа пик и заставляющая всех ваших коллег смеяться над вами в течение недели).


74
Был там, сделал это. После этого мы добавили псевдоним killall-команда для соляриса: alias killall = 'echo ORLLY?' =)
Командир Кин

29
В Solaris также есть важное различие между 'ifconfig -a4' (показать информацию об IPv4 всех интерфейсов) и 'ifconfig -a 4' (установите все интерфейсы на 0.0.0.4).
Занчи

3
+1 "Ой, этот ветер вошел в солярис?"
Марк Харрисон

4
@ Коммандер, я собирался поднять ваш комментарий, но в этот момент ровно 42 голоса ... Я просто не мог .
Массимо

5
Также hostname -fв Linux печатается полное доменное имя в Linux. В Solaris имя хоста устанавливается равным -f.
200_success 14.10.10

73

Я отвечал за наш корпоративный веб-прокси, который в то время был продуктом Netscape. Во время игры в формах администратора (это был веб-интерфейс) была большая (и я клянусь, она была красной) кнопка с надписью « Удалить базу данных пользователей» . Нет проблем, подумал я. Давайте посмотрим, какие варианты он дает мне, когда я ударю это. Конечно, будет подтверждение, если нет вариантов.

Да, нет подтверждения. Нет вариантов. Нет больше пользователей.

Итак, подошел к г-ну Солярису Сисадмину и сказал, что я остро нуждаюсь в восстановлении с ленты, на которую он ответил: «Я не копирую эту коробку».

«Ну, приходи еще», - ответил я.

«Я не копирую эту коробку. Она есть в моем списке вещей, которые нужно добавить к резервной ротации, но я еще не дошел до этого».

«Этот сервер работает уже почти 8 месяцев!» Я кричал.

пожав плечами , ответил он. "Сожалею."


50
Это определенно история для всех тех людей, которые жалуются на тех противных «Вы уверены?» диалоги;)
MikeyB

45
Я не совсем уверен, что вы должны кричать на него ...
Mikeage

14
Это на самом деле не случайность - ты специально нажал кнопку «Удалить базу данных пользователей», давай, чувак ...
Уэйн Коортс

5
Да, ты прав. Нажатие на кнопку не было случайностью. На самом деле удаление базы данных было частью аварии. Безотносительно ...
squillman

7
За этой кнопкой должны следовать два или три запроса подтверждения. Чем полезна функция удаления пользовательской базы данных? Я полностью обвиняю программиста, который поместил туда кнопку. И тот факт, что БД не было подкреплено. «У гения могут быть свои ограничения, но глупость, таким образом, не является недостатком». (относится к Элберту Хаббарду). Создание с предположением, что люди не любопытны, небрежные обезьяны - это просто катастрофа.
Джаред Апдайк

66

Много лет назад у компании, в которой я работал, был клиент, который запускал ночное резервное копирование своего сервера NT 4.0 на диск Jaz (например, на zip-диск большой емкости).

Мы создали пакетный файл, который выполнялся как запланированное задание на ночь. Каждое утро они собирали диск прошлой ночи с диска, а перед тем, как уйти вечером, вставляли следующий диск в последовательность.

Во всяком случае, командный файл выглядел примерно так (диск Jaz был диск F:) ...

@echo off
F:
deltree /y *.*
xcopy <important files> F:

Во всяком случае, однажды ночью они забыли вставить диск. Изменение на диск F: не удалось (диск не на диске), и пакетный файл продолжал работать. Рабочий каталог по умолчанию для командного файла? C :. Впервые я увидел, как подпрограмма резервного копирования уничтожает сервер, на котором она создавала резервные копии.

Я узнал кое-что о системном администрировании (и обработке исключений) в тот день.

Джим.

PS: исправить? "deltree / y F: \ *. *".


57
... мы должны объяснить, что такое диски Jaz? Я действительно такой старый ??
Спенсер Рупорт

3
Это была вещь IOMEGA (помните Zip Drives?) Был старшим братом Zip Drive, и это было похоже на жесткий диск без головок, только пластинки, который входил в пластиковый корпус с небольшим окном и когда вставлялся на диск, диск вставил заголовки на нем. Где-то 1 или 2 ГБ, дорого и имеют тенденцию перегреваться, поэтому не рекомендуется оставлять картриджи внутри считывателя (об этом сказал старый босс IOMEGA)
Андор

3
Хе-хе, мне нравится, как jaz-диск объясняется сравнением с «просто мертвым и нерелевантным zip-диском».
Люк

2
Если это заставляет вас чувствовать себя старше, есть системные администраторы, которые никогда не видели deltree раньше.
Джозеф

5
Я должен был объяснить многим программистам, что, когда вы пытаетесь выполнить операцию, которая изменяет состояние, и все же может потерпеть неудачу и оставить вас в предыдущем состоянии, вы должны проверить, успешно ли это произошло, если вы собираетесь делать что-то опасное если вы находитесь в предыдущем состоянии. Почему я должен это объяснить?
Карлито

61

root @ dbhost # find / -name core -exec rm -f {} \;

Я: "Вы не можете войти? Хорошо. Как называется БД?"

Cu: «Ядро».

Я: "О"


3
и с тех пор, использование команды 'file' было добавлено в crontab очистки ... :)
MikeyB

3
Боже мой ...
squillman

4
Боже мой ... вау. Я собираюсь сделать мысленную заметку об этом, поэтому я никогда этого не сделаю.
Гленн Виллен

60

Мне нравится, как все оценивают свою историю как «когда я был молодым / зеленым», как будто они никогда не будут делать это снова. Несчастные случаи могут случиться даже с самыми опытными профессионалами.

Мой собственный худший момент настолько плох, что у меня все еще учащается сердцебиение ...

У нас был SAN с производственными данными на нем. Критически для компании. Мой «наставник» решил расширить раздел, чтобы освободить место на диске. Вы видите, куда это идет? Он сказал, что программное обеспечение SAN может сделать это вживую, в рабочее время, и никто не заметит. Тревожные колокола должны были зазвонить, но заметно замолчали. Он сказал, что делал это "много раз раньше" без проблем. Но вот в чем дело - он заставил меня нажать на кнопку с надписью «ты уверен?»! Поскольку я был новичком в компании, я предположил, что этот парень знал, о чем он говорит. Большая ошибка. Хорошей новостью было то, что LUN расширился. Плохая новость была ... ну, я знал, что были плохие новости, когда я начал видеть ошибки записи на диск в Windows.

Я рад, что на мне были коричневые штаны.

Мы должны были объяснить, почему 1TB данных исчезли в обеденное время. Это был действительно очень плохой день.

На самом деле это хороший принцип - прежде чем делать что-то, в чем вы сомневаетесь, представьте, что вам нужно объяснить руководству, если что-то пойдет не так. Если вы не можете придумать хороший ответ, чтобы объяснить свои действия, не делайте этого.


17
+1 за последний абзац - техника «сидеть на руках», одна важная минута для размышлений
Энди

12
Есть определенный навык, который вы получаете после работы с живыми системами некоторое время: чувство паука о том, что опасно, а что нет. Например, приостановить лишнюю секунду перед нажатием возврата в корневом запросе или убедиться, что в операторе обновления SQL указано правильное условие where (это уже было выполнено в select count (*)).
jplindstrom

18
Я хочу всплывающее окно, которое говорит что-то вроде: «Хотите распечатать свое резюме, прежде чем продолжить?» .. и есть только один вариант: «Да»
Уоррен

+1 за совет в последнем абзаце
Jeroen Huinink

3
+1, тоже самое. Я помню, как услышал от друга-сисадмина, что в его ежегодной аттестации были проблемы с плохой скоростью печати, которые он презрительно (и правильно) отклонил: «Мне не платят за быстрый ввод. медленно и вдумчиво.
MadHatter

54

Нагиос пинговал нас однажды утром, когда рабочие часы начали говорить, что он не может подключиться к некритическому серверу. Хорошо, поход в серверную комнату. Это старый сервер Dell 1650, купленный в 2002 году, и мы знали, что у 1650-х возникли проблемы с оборудованием. PFY нажимает кнопку питания. Ничего. Нажмите его снова и удерживайте в течение пяти секунд, чтобы «включить питание» ... что отменяет защиту от ошибок BMC, поскольку без DRAC невозможно проверить журналы BMC, не подключив питание к шасси.

Машина начинает POST, а затем снова умирает. Я стою над ним и говорю: «Я чувствую запах дыма». Мы вытаскиваем сервер на рельсы, и один из блоков питания ощущает тепло, поэтому PFY тянет его и собирается снова закрыть коробку. Я говорю: «Нет, это не дым блока питания, это дым материнской платы».

Мы снова открываем шкаф и ищем источник горящего запаха. Получается, что катушка индуктивности и конденсатор что-то сдуло с регулятора напряжения на материнской плате, и разбрызгивают расплавленную медь и конденсаторную петлю по всему, замыкая кучу вещей и в основном создавая большой беспорядок.

Хуже всего для меня было признание того, что я выкурил достаточно оборудования, чтобы распознать разницу между запахом сгоревшей материнской платы и сгоревшего источника питания.


17
Критерии отбора этой работы включают в себя: хорошее обоняние. Brilliant.
mlp

13
Мой приятель ввернул несколько направляющих в диск так, чтобы они вошли в монтажную плату и замкнули ее. Довольно розовый дым. Очень различим.
squillman

47

Три дня назад (серьезно) я удаленно вошел на школьный сервер, установив пакет обновления 2 на файловый сервер Windows Server 2008.

Я решил запланировать необходимую перезагрузку на поздний вечер, когда учителя не будут входить в систему, заканчивая свои табели успеваемости на конец года. Я набрал что-то вроде:

 в 23:59 "shutdown -r -t 0" 

... который мог бы работать нормально.

Но потом я второй угадала себя. Был ли правильный синтаксис «выключения»? Я пытался просмотреть справку по использованию, набрав

 выключение / ч 

... и мгновенно потерял мое соединение RDP. Паникуя, я выбрал Google для синтаксиса. Быстрый поиск показал, что версия завершения работы Server 2008 включает переключатель / h, который (как вы уже догадались) переводит компьютер в спящий режим.

Учителя начали звонить мне через несколько минут, чтобы сообщить, что они больше не могут открывать или сохранять табели успеваемости, над которыми они работали. Поскольку я находился вне офиса, а серверная комната была заперта, мне пришлось напрямую позвонить директору школы и провести ее через процесс включения машины.

Сегодня я принес всем домашнее печенье в качестве извинения.


32
Прекрасный пример некорректного дизайна пользовательского интерфейса в командной строке: что случилось с «Принципом наименьшего сюрприза»?
Мэй

9
в DOS / Windows не так ли?
Джаред Апдайк

3
Это обычно /? на Win, но есть много утилит, которые портированы из UNIX или написаны людьми UNIX (включая довольно много таких в MS), которые -h или / h
Ричард Гадсден

6
..но вы все равно ВСЕГДА попробуйте /?первый!
Уоррен

14
Вот почему я люблю Linux. man shutdown, Я знаю, что я не собираюсь вызывать проблемы с man!
Джош

37

На предыдущей работе у нас была отличная доморощенная система, которая регистрировала и архивировала каждый фрагмент почты, который входил, оставлялся или оставался в компании.

Снес весь свой почтовый ящик? Нет проблем! Ищете письмо, которое кто-то прислал вам неделю / месяц / год назад, но вы не можете вспомнить, кто его отправил или какой был предмет? Нет проблем! Мы просто перенесем все с февраля для вас в специальную папку.

В какой-то момент генеральному директору компании потребовалось следить за пересылкой почты между конкурентом и внутренним продавцом, находящимся под подозрением. Поэтому мы создали скрипт, который запускался каждую ночь и доставлял соответствующую почту с предыдущего дня генеральному директору. Нет проблем!

Примерно через месяц слух о двойной проблеме срочно сошел с небес. Похоже, что когда генеральный директор просматривал список писем, отправленных в $ OTHERCOMPANY, он наткнулся на это:

To: somebody@$OTHERCOMPANY
From: CEO
Subject: CEO has read your message (subject line here)

Естественно, генеральный директор был важным человеком и все такое, он был слишком занят, чтобы щелкать по всем этим диалоговым окнам «Отправить чтение квитанции» в Outlook, и настроил своего клиента так, чтобы он просто отправлял их все. У одного из сообщений, перехваченных фильтром мониторинга, был установлен запрос на чтение. Угадайте, что сделал Outlook? Конечно, глючил «тайный» мониторинг.

Наша следующая задача: добавить правила в почтовый фильтр, чтобы заблокировать исходящие чеки от генерального директора этой компании. Да, это был самый простой способ. :)


3
Это не законно в моей стране, хотя. Вообще.
Мафу

1
Ах, это твоя страна. :) В Канаде это просто отлично.
MikeyB

7
Это не законно, чтобы следить за электронной почтой, входящей или выходящей из серверов вашей компании? В какой стране ты живешь?
Эндрю Энсли

1
+1 за репортаж
Фахад Сада

36

Аааа, моя была около 10 лет назад, когда я еще промокала. Я имел удовольствие установить резервные копии батареи на всех компьютерах программистов. Они также хотели, чтобы загруженное программное обеспечение предупреждало о сбое питания и корректно завершало работу.

Поэтому я настроил его на своем компьютере, чтобы сначала все проверить и убедиться, что все работает. Поэтому я отсоединяю шнур питания и на экране появляется сообщение. "потеря внешнего питания, начало выключения системы".

Так что я подумал, Эй, круто, это сработало. Но по какой-то странной причине, я даже не помню, он отправил это сообщение в виде сетевого сообщения, так что все 200+ компьютеров в компании получили это сообщение, где более 100 пользователей были программистами.

Да, говорить о массовом сумасшествии !!

Я долго держал голову в этом месте!


3
Ха-ха, похоже на то, что случилось с моим другом здесь с «net send» и примерно 1300 получателями :)
squillman

10
Тьфу. Я тоже занимался "net send" в колледже. Я думал, что "они должны были отключить это"! ба-динь! по всей лаборатории компьютеры были переданы. Я решил принести извинения сетевому администратору, и на моем пути, каждый компьютер, который я прошел, имел сообщение. / вздох
Мэтт Симмонс

3
Да, прогулка позора прямо там! Мой друг не встал со стула. Не стал отвечать и на его телефон.
squillman

10
Ха-ха, мой чистый друг отправил всех в школу «ПОМОГИТЕ! Я в ловушке в комнате 114», и, конечно, через 60 секунд появилась небольшая армия людей, чтобы узнать, кто послал сообщение
Марк Хендерсон

2
Мы на самом деле использовали эту функцию, чтобы проклясть системного администратора в моем младшем колледже. Очистил все компьютерные лаборатории с помощью поддельных AV-сообщений и сообщений о выключении системы, которые выглядели так, как будто они пришли от него. Он сильно подозревал, что мы были виновниками, но у меня и у моего приятеля было алиби (я отправил первое, когда он был в классе, а он отправил второе, когда я был в классе), и у компьютеров был общий вход в лабораторию
Шиал

35

Я часто использовал команду «sys-unsfig» на компьютерах Solaris для сброса службы имен компьютеров, IP-адреса и пароля root. Я был в системе пользователей, и я вошел на сервер установки здания и посмотрел что-то (как root), а затем забыл, что зашел на другую машину (не описательная подсказка «#»), и запустил команду «sys-unsfig».

# sys-unconfig     
        WARNING

This program will unconfigure your system.  It will cause it
to revert to a "blank" system - it will not have a name or know
about other systems or networks.

This program will also halt the system.

Do you want to continue (y/n) ? y

Connection closed

#

Это сообщение «соединение закрыто» медленно превращалось в панику ... на какой машине я вошел, когда выполнил эту команду.

Хуже всего было не то, что мне дали мои коллеги, а то, что я сделал то же самое через месяц.


24
О, классика, "на какой машине я?" момент паники. Я был здесь. Я чувствую твою боль.
sysadmin1138

2
Я тоже. Любой, кто испытал это, точно знает, что означает фраза «ледяная кровь».
Мэтт Симмонс

21
Есть причина, по которой моя подсказка оболочки всегда содержит имя пользователя и имя хоста ...
derobert

2
Однажды я установил псевдонимы для входа на разные машины, чтобы получить разноцветные фоны, чтобы можно было еще более четко распознать, на какой машине я работал.
Цитракс

Поскольку я использую Linux на обоих серверах и на своем локальном компьютере, у меня часто открываются корневые приглашения на серверах и на моем ПК, на серверах отображаются красные приглашения на различие
Hubert Kario

27

У меня есть довольно хороший. По общему признанию, это было до моего времени как системный администратор, но все еще связано с технологиями, поэтому я решил добавить его.

Когда-то я работал технологом спутниковой связи / широкополосной связи для ВВС США. После окончания техникума я оказался в Южной Корее. Вскоре после прибытия на станцию ​​появилась возможность отправиться на юг с «большими парнями», которые были там некоторое время и фактически работали на некотором реальном (то есть «производственном») оборудовании.

Я спустился с командой и, как энергичный молодой техник, ломал голову, весьма взволнованный перспективой получить в руки настоящий аппарат, который передавал в прямом эфире военный голос и трафик данных.

Чтобы начать меня медленно, они вручили мне руководство, повернулись к секции профилактического обслуживания и указали мне в направлении четырех стоек, заполненных несколькими большими цифровыми мультиплексорами. Оборудование было достаточно простым, мы покрывали то же самое оборудование в техникуме.

Первая страница руководства прочитана; «Подайте питание на цифровой мультиплексор. Поверните оба задних переключателя в положение ON и дождитесь включения оборудования, затем начните испытания». Я посмотрел вверх, и там уже была сила!

Я был в затруднительном положении наверняка. Не зная, как поступить, я выстрелил изо всех сил: «Ммммм… Кинда потерял здесь», посмотрите на старшего.

Он посмотрел на меня и засмеялся: «Нет, нет, все в порядке. Вы можете игнорировать эту часть контрольного списка». Затем, когда он заметил выражение моего лица (так как нас НИКОГДА не учили в школе, НИКОГДА не игнорировать какую-либо часть контрольного списка, а если кто-то так и сделал, это была определенная смерть и разрушение), он серьезно посмотрел на него. лицо и сказал: "Игнорировать только эту часть! Следуйте за остальным, к письму!"

Я покорно пробежал по многоступенчатым инструкциям премьер-министра, довольный как моллюск и гордый тем, что они позволили столь низкому, хотя и умному, техническому персоналу выполнить эту важную работу.

Где-то между пятым и шестым контрольным списком профилактического обслуживания на этих огромных мультиплексорах я начал замечать повышенный уровень активности вокруг себя. Звонили телефоны, люди быстро двигались. Шутливые взгляды обменивались.

Наконец, ко мне подбежала группа людей во главе с одним из высокопоставленных техников, которые меня сбили.

«Эй! Мы наблюдаем ОГРОМНЫЕ перебои в трафике данных, и мы изолировали / проследили путь обратно к стойкам, над которыми вы работаете! Вы видите какие-то странные…»

(В этот момент он был отрезан другим специалистом по устранению неполадок, который пробирался к первой группе мультиплексоров, на которых я выполнял PM).

"СВЯТЫЕ ОРЕХИ! ОНИ ОТКЛЮЧЕНЫ! ОН ОТКЛЮЧИЛ ИХ !!!!"

Вскоре я наблюдал, как они поспешно пробежали по первому шагу в руководстве: «Поверните оба задних переключателя в положение ВКЛ ...» Когда старший техник закончил, он подошел ко мне и недоверчиво спросил, что я думаю из, выключив критические части оборудования.

Испугавшись своего разума, я передал ему контрольный список, за которым следил, клянусь, что не отклонился от ВСЕГО. То, что я следовал этому, «к письму», как он наставлял.

Через некоторое время он засмеялся и указал, где проблема.

В руководстве ФИНАЛЬНЫЙ шаг в контрольном списке профилактического обслуживания был:

«Запишите окончательные показания датчика, вытрите переднюю панель, удалив всю пыль и частицы, затем поверните оба задних выключателя питания в положение ВЫКЛ.»

:)


Я не знаю, что это значит
Джо Филлипс

Разве последний шаг, сказавший, чтобы выключить машины, не казался немного странным? Просто интересуюсь.
Эндрю Энсли

2
Наверное, это казалось странным, но помните, он был в армии. Представьте себе, что вы пытаетесь командовать армией, где каждый солдат говорит: «Подождите, вы уверены? Этот приказ звучит смешно для меня».
Kyralessa

26

Это своего рода авария системного администратора ... поскольку системным администраторам иногда приходится физически перевозить большое количество машин из пункта А в пункт В (где, по-видимому, А и В всегда разделены несколькими лестничными маршами в здании без лифта). В n-й поездке дня я остановился, чтобы сделать передышку в трех полетах от уровня загрузки подвала, чтобы поболтать с кем-то, спускающимся вниз, подперев полноразмерную башню со станцией, которую я нес на внутреннем поручне открытого подъезда. и ... ну, как вы уже догадались ... немного потерял мою хватку. Он безошибочно погрузился прямо в колодец, и когда он добрался до дна, ну ... не так уж много с функциональностью для этого! Всего подлежащих утилизации частей: две палки ОЗУ, один дисковод гибких дисков и одна плата ISDN (да благословит Бог инженеров Хермштедта!). Все остальное либо треснуло,

По милости Божьей никто не шел под ним, что, к счастью для меня, было первым моим начальником, поэтому я должен был сохранить свою работу. Чувствовал себя очень плохо в течение часа или около того.

Мораль: гравитация всегда побеждает!


2
Вы не сфотографировали обломки, не так ли?
Пупено

5
@ J.Pablo - Нет, боюсь, это было более десяти лет назад, когда камеры были большими, в них были химикаты и тому подобное. Если бы я сделал это недавно, я бы получил последствия на YouTube в течение десяти минут!
австраллен

Правдивая история: это случилось со мной 9 лет назад, но с кондиционером и из окна 9-го этажа . Это была не моя вина (я просто кому-то помогал), и никто не пострадал, но я чувствовал себя плохо в течение нескольких дней .
imgx64

26

Я перезагружал систему для кого-то, и в процессе ручного резервного копирования я задал ему вопрос: «Есть ли у вас другие программы, которые вы используете?» и "Есть ли что-нибудь еще важное, что вы делаете на компьютере?"

Он сказал «нет» НЕСКОЛЬКО раз.

Я был убежден и отформатировал диск.

Примерно через 30 минут он сказал «Боже мой» и положил обе руки на голову.

Оказывается, он работал над книжным сценарием более 10 ЛЕТ в специализированной программе. Это было в то время, когда программы использовали для сохранения пользовательских данных в своем каталоге программных файлов, и я пропустил это.

Whhhhooooops.

Он не злился на меня, но это было отрезвляющее чувство.


7
Вы преподали ему ценный урок: резервные копии важны
MikeyB

5
Просто читать это очень больно. Так больно. Конечно, урок, но ...
Мафу

Все еще хороший опыт для бедного парня. Он мог бы работать в течение 30 ЛЕТ и иметь сердечный приступ перед вами.
Помогите

Человек, я помню, делал что-то подобное. По-видимому, у моего дяди было множество подобных клиентских штучек для этого пользовательского приложения, которое ему дала ему работа. Это было в программных файлах / вздох. К счастью, я вспомнил это, когда починил свой папский рабочий компьютер, на котором было какое-то специальное страховое приложение.
PHGamer 16.10.10

@phgamer, могу я попросить вас посмотреть ваш язык, пожалуйста, это не то место, извините.
Chopper3


23

Это не случилось со мной, но ...

Я работал в компании, которая производила программное обеспечение, которое работало на машинах Linux, предоставленных клиентом. По сути, мы бы «взяли на себя» машины, полностью настроили их под наши спецификации и выполнили бы все управление и мониторинг. По сути, мы были командой из 10-15 системных администраторов, управляющих тысячами серверов для сотен клиентов. Ошибки должны были случиться.

Один из наших сотрудников обнаружил некоторые проблемы на сервере (я думаю, что это резервная копия) и решил, что он должен запустить на нем fsck. Он остановил все соответствующие службы, удостоверился, что система недавно сделала резервные копии, и затем запустил fsck, но он пожаловался, что файловая система была смонтирована. Так как мы были удаленными и не имели удаленного доступа (DRAC, ILO и т. Д.), Он не мог выполнить fsck, но он был совершенно уверен, что это было безопасно сделать при смонтированной файловой системе, если вы были осторожны.

Он решил попробовать сам, запустив fsck в своем корневом разделе, с предсказуемыми результатами - он повредил свой корневой раздел и больше не мог загружаться.

В замешательстве он подошел и поговорил с руководителем нашей команды. Ведущий сказал, что он почти уверен, что вы не можете этого сделать, и член команды сказал: «Конечно, вы можете!», Взял клавиатуру ведущего и показал ему, что вы можете - запустив fsck в корневом разделе руководства. Какой полностью поврежден корневой раздел HIS.

Конечный результат? Данные тестирования не пропали, благодаря тестированию члена команды. Два дня производительности сотрудников были потеряны, но это стоило намного, намного меньше, чем данные на машине клиента. И для записи? Вы можете запустить fsck на смонтированном диске, но только для проверки данных. Не ремонтировать его. Это была ошибка члена команды.

-

Чтобы добавить свою историю, я работал в той же компании и пытался сбросить пароль пользователя. Наша система отказалась разрешить мне установить необходимый ему пароль, потому что она отслеживала старые хэши паролей и не позволяла вам дублировать пароль. Механизм был прост: он проверял ваш пароль по последнему хешу в базе данных.

(И для справки, это должен был быть старый пароль, потому что это была общая учетная запись, и удостовериться, что все знают, что новый пароль нецелесообразен)

Я решил просто зайти в базу данных пользователей и удалить новые записи, чтобы она использовала более старую. Это все просто SQL (работает древняя версия Sybase), так что это легко. Сначала я должен был найти записи:

SELECT * FROM users_passwords WHERE username='someuser';

Я нашел старую запись, которую он хотел сохранить; перед ним было еще два. Я решил быть умным и просто удалить что-нибудь новее, чем старая запись. Глядя на набор результатов, я увидел, что старый пароль был идентификатором № 28 в базе данных, а новый - идентификатором # несколько тысяч (очень загруженная система). Все просто, все старые строки были> 28, поэтому:

DELETE FROM users_passwords WHERE id > 28;

Нет ничего хуже, чем сделать простую обрезку строк и увидеть «затронуты 212 500 строк». К счастью, у нас было два главных сервера баз данных (с идентификатором пользователя), но Sybase (по крайней мере, наша версия) не поддерживала автоматическую репликацию, поэтому она не удаляла старые записи автоматически. Было несложно получить дамп таблицы users_passwords и повторно импортировать его. Тем не менее, довольно большое "о блин!" момент.


Вот почему в sql есть выражение «LIMIT»;)
hayalci

20
Более того, именно поэтому вы всегда сначала выдаете «DELETE FROM xxx» как «SELECT * FROM xxx». Затем дважды проверьте, что он показывает, а затем просто замените SELECT * на DELETE.
Слеське

1
К вашему сведению, я не уверен, что даже fsck без изменений безопасен на смонтированном ext3, в конце концов, он воспроизводит журнал ...
derobert

14
Нет, именно поэтому вы всегда начинаете сначала. Затем, когда вы увидите, что затронуто больше строк, чем предполагалось, вы можете выполнить откат.
pipTheGeek

1
@Dan Это почти то же самое, что и в любой другой СУБД, вы просто убедитесь, что вы выполняете свой оператор, уже запланировали свои проверки, например, просто проверяете строки, или когда готов выбор, чтобы проверить результат обновления, а затем зафиксировать или откатить. Это спасло меня однажды, когда я забыл выделить выражение WHERE в инструкции T-SQL в MS-SQL 2005.
pipTheGeek

22

Еще один из моих любимых:

При настройке компьютера и локального лазерного принтера в системе у меня была прекрасная идея подключить их обоих к ИБП компьютера. Вы когда-нибудь пытались печатать на локальном лазерном принтере, когда он подключен к настольному ИБП? Ну, если вы не знаете, это имеет тенденцию тянуть все усилители ... который перезагружает компьютер ... И задание на печать никогда не заканчивается ...!

Когда-нибудь мне позвонили: « Всякий раз, когда я печатаю, он перезагружает мой компьютер и не печатает !!! «?

По электронной почте Ой!

JFV


1
Ооо, я просто жду, чтобы увидеть, как это происходит в моей церкви сейчас :)
squillman

2
Большинство производителей ИБП говорят «не подключайте лазерные принтеры», потому что они будут перегружать их.
Андрей

22

Оператор DELETE без предложения WHERE в базе данных постоянных клиентов.


9
"НАЧАЛО СДЕЛКИ" FTW!
Спулсон

6
Где вы были, прежде чем я уничтожил их живую базу данных!
Ян Бойд

1
Это своего рода обряд; каждый начинающий администратор базы данных должен сделать это хотя бы один раз. Надеюсь на то, что не так уж важно ...
RainyRat

22

Набирается kill 1как root. initи все ее дети умерли. И все их дети. и т.д. и т.п.

То, что я хотел напечатать, было kill %1

После того, как я понял, что я сделал, я подбежал к панели управления БОЛЬШОЙ машиной для сортировки шерстяных тюков и нажал кнопку аварийного останова. Это остановило машину, которая разорвалась на части, поскольку я только что убил программное обеспечение, которое управляло ею.


1
Это заставило меня смеяться! Проработав с большой техникой в ​​прошлом, я могу оценивать системы управления.
SpaceManSpiff

1
На BSD kill -1 1 заставил init перечитать inittab или / etc / ttys. Отпуск "минус" имел последствия ...
Kmarsh

2
Слава Богу за эту кнопку аварийной остановки! :-)
staticsan

+1 за неспособность сказать: «Вы не можете нанести какой-либо ущерб оборудованию, взломав программное обеспечение».
outis

21

Мы были в середине перебоя в питании и увидели, что ИБП работал на 112% от настроенной нагрузки. Это не было большой проблемой, так как в то время мы работали на генераторе.

Таким образом, мы потянули за резервные кабели питания, чтобы уменьшить потребление энергии на этом ИБП (у нас было два, один намного больше, чем другой). Мы добрались до сетевого коммутатора, который управлял серверной комнатой (это была серверная комната со всеми внутренними серверами компании, а клиентские серверы находились в другой серверной комнате). Коммутатор представлял собой коммутатор большого корпоративного класса с тремя блоками питания. Поставки были N + 1, поэтому нам понадобилось всего два, чтобы запустить коммутатор.

Мы выбрали кабель и вытащили его. К сожалению, для нас два других были подключены к единому удлинителю, который быстро сдулся, поскольку нагрузка на два источника питания, которые были подключены к нему, возросла. Затем системный администратор запаниковал и подключил третий кабель. Коммутатор попытался сработать, перенеся всю нагрузку коммутатора на один источник питания. Вместо того, чтобы отключить источник питания, он взорвался потоком искр в 12 дюймах от моего лица, что заставило меня прыгнуть обратно в стойку с серверами.

Я инстинктивно пытался прыгнуть в сторону, но, к сожалению, слева от меня была стена, и два справа от меня был очень большой парень 6'4 ". Мне как-то удалось перепрыгнуть через него или, возможно, через него отскочить из стеллажей Compaq (с тонкими сетчатыми фасадами), не кладя в стойку целое и не касаясь парня с оборудованием.


2
+1 за впечатляющий скачок.
RainyRat

1
Спасибо. Денис, парень из учреждения, был впечатлен тем фактом, что я не сбил его с толку.
Мрденный

20

В какой-то момент в моей карьере судебное расследование в компании, на которую я работал, наложило на нас требование, чтобы вся электронная почта сохранялась с «этого дня» до тех пор, пока не будет сказано иначе. Приблизительно после года хранения ежедневных полных резервных копий нашей среды обмена (1 ТБ в сутки) у нас стало мало места.

Администраторы биржи предложили хранить только каждую восьмую копию письма. Чтобы сделать это, мы попросили их восстановить дневные базы данных для обмена, извлечь нужное письмо (определенные люди помечены для расследования) и повторно архивировать его. Они делали это для каждого восьмого дня электронной почты для всех наших резервных копий. Был выбран 8-й день, потому что в exchange был набор параметров, в котором «удаленные элементы» хранятся в базе данных в течение 8 дней.

После того, как они заканчивали каждый архив, я возвращался и удалял все резервные копии, которые были старше, чем они архивировали.

У TSM нет простого способа сделать это, поэтому вам нужно вручную удалять объекты из резервной базы данных.

Я написал сценарий, который удалял бы все резервные копии старше некоторой даты путем вычисления даты с использованием разницы между сегодняшним днем ​​и рассматриваемой датой. В какой-то день мне пришлось удалить резервные копии на сумму около месяца, за исключением того, что когда я произвел расчет даты, я сделал опечатку и ввел дату как 7/10/2007 вместо 6/10/2007, и запустил скрипт. Я удалил данные за весь дополнительный месяц, случайно, что было частью очень важного судебного процесса.

После этого я добавил несколько шагов в скрипт, чтобы подтвердить, что вы хотите удалить данные, и показать, что они будут удалять ...

К счастью, они даже не использовали никаких данных, которые мы так усердно сохранили, и у меня все еще есть работа.


5
1 ТБ ДЕНЬ ОБМЕНА ДАННЫМИ? Ух, у вас, ребята, было 365 терабайт, выделенных просто для дополнительных резервных копий Exchange? Это серьезное хранилище.
Карл С

28
Вы бы потеряли только 1 день, если бы были в Европе :-)
PowerApp101

20

После долгого рабочего дня или отслеживания производительности и настройки огромного мэйнфрейма (вы знаете, звери, которые берут пару часов, прежде чем все резервные сайты резервного копирования сошлись во мнении, что он действительно загружается снова и полностью синхронизирован), протянули пальцы, напечатали довольное завершение работы -p теперь в моем ноутбуке, закрыл крышку, выдернул последовательный кабель из базового блока, в ожидании хорошего холодного стакана из лагера.

Внезапно я слышу оглушительный звук вращающегося вниз базового блока, в то время как мой ноутбук все еще счастливо отображал X.

В ожидании, пока машина снова полностью подключится к Интернету, я решил, что у меня есть время, чтобы заставить мой ACPI работать на моем ноутбуке, поэтому я никогда не испытываю соблазна выключить мой ноутбук.


Если вращение DOWN мейнфреймов чертовски шумит, я не хочу слышать, как он вращается вверх или, что еще хуже, на полной скорости.
Мирча Кирея

16

Эта авария не произошла ... но стоит упомянуть:

Меня отправили в интенсивно используемый центр обработки данных для тестирования пропускной способности на новом канале. Я добрался до демаркационной комнаты / IDF, нашел место на одной из стоек для моего тестового маршрутизатора, установил соединения и начал тесты. К сожалению, мне совершенно не удалось заметить, что производственный пограничный маршрутизатор не только точно находится на следующей стойке (почти на том же уровне), но также и того же производителя и модели, что и мой тестовый маршрутизатор.

Когда тест был закончен, я начал нажимать выключатель питания в положение «выключено» (... представьте, что это происходит в замедленном режиме ...) и, клянусь, как раз когда я давил, меня осенило, что маршрутизатор, о котором я говорил чтобы выключить был тот в производстве. Мое сердце остановилось, и я почти ... хорошо, использую ваше воображение.

Я оставил MDF центра обработки данных испуганным и бледным, но в то же время рад, что у меня все еще есть работа!


18
Представьте, что это могла быть одна из тех минных ситуаций. Вы понимаете, когда палец нажимает на кнопку, что вы сделали, и вы не можете убрать палец, иначе сервер выйдет из строя. Так что все, что вы можете сделать, это стоять там и кричать о помощи.
Том Риттер

20
LOL .. не думал об этом! Это была бы ПУТЬ лучшая история. Я могу представить, как инженеры сети центров обработки данных толпятся вокруг, предлагая различные варианты решения проблемы. Может быть, один из них разместил (если бы SF был доступен тогда) вопрос типа: «Как мы можем отключить выключатель питания на маршрутизаторе, когда он нажал на идиота?» (+500
бонусных

21
Если это похоже на то, где я работал, решение будет включать быстрое удаление поврежденного пальца и замену его большим количеством клейкой ленты. (И затем намереваясь запланировать время простоя машины, чтобы удалить ленту, но отложил ее на 18 месяцев до тех пор, пока лента, наконец, не выйдет из строя).
Ян

16

Я удалил чью-то учетную запись по ошибке, перепутал имена с той, которую я хотел удалить. Opps

Крутая часть - они никогда не знали, что случилось. Получив звонок, который они не смогли войти, пенни упала из-за аккаунта, который я удалил.

Находясь с ними на телефоне, я быстро воссоздал их учетную запись, заново подключил к ней их старый почтовый ящик (к счастью, Exchange не удаляет почтовые ящики сразу) и указал на их старые пользовательские файлы.

Затем я обвинил их в том, что они забыли свой пароль, который я только что сбросил для них :)


9
Я разрываюсь между + 1'ing шарами, которые вы должны были использовать это оправдание, и -1'ing за ложь пользователю ....
Бабу

22
+1 за обвинение пользователя
JJ01

16

Случайно установил файл tar.gz на мою коробку Gentoo Linux в неправильном месте, и файлы остались повсюду. Должно быть, это было в 1999 году, 19 в то время (спасибо за комментарии ниже)

Будучи выродком, которым я являюсь, я решил попытаться составить сценарий самостоятельно, вручную просматривая каждый файл.

Итак, я попробовал:

tar - список evilevilpackage.tar.gz | xargs rm -rf

Мне не потребовалось много времени, чтобы заметить, что tar также перечислил все каталоги, которые использовала программа, в том числе были '/ usr, / var, / etc' 'и несколько других, которые я на самом деле не хотел удалять.

CTRL-C! CTRL-C! CTRL-C! Поздно! Все прошло, переустанови время. К счастью, в коробке не было ничего важного.


10
Я не хочу вдаваться в детали, но я почти уверен, что Gentoo начался примерно в 2002 году
Мэтт Симмонс,

Да, 1.0 был выпущен в 2002 году. RedHat или Slackware были бы более вероятным выбором в 98-м
saschabeaumont

Если он не был действительно хардкорным, Enoch Linux выпустил 0.75 в декабре 1999 года и в итоге стал Gentoo с версией 1.0 в 2002 году
Shial

В то время жил в подвале моей матери, так что примерно в это время, по крайней мере, до 2000 года. Не уверен, что это твердое ядро ​​или нет; это был следующий логический шаг после Slackware.
Андриоид

У Slackware были пакеты .tgz.
Мариус Гедминас

12

Как небольшая часть моей прошлой жизни, я управлял файловым сервером компании, коробкой Netware 4:11. Вряд ли ему когда-либо понадобился какой-либо ввод, но если он это сделал, вы открыли окно удаленной консоли.

Раньше я использовал DOS все время, когда заканчивал, я, естественно, набирал «Выход». Для Netware «выход» - это команда для выключения ОС. К счастью, он не позволит вам завершить работу, если вы сначала не «выключите» сервер. (Сделайте его недоступным для сети / клиентов). Поэтому, когда вы набираете «Exit» в консоли, он услужливо говорит: «Сначала вы должны набрать» Вниз ", прежде чем вы можете выйти"

Спросите меня, сколько раз я 1: набрал «exit» в сеансе консоли и 2: послушно набрал «Down», а затем «Exit», чтобы я мог «закончить то, что пытался сделать»

И тогда телефон начинает звонить .....

лол


8
больше чем единожды??
BradC

2
Вот почему я использую ^ D для выхода из системы. Это просто завершает сеанс оболочки.
Юбер Карио

11

Еще одна история, которая не произошла (фу):

Каждый день мы неукоснительно делали резервные копии на магнитную ленту.

Мы написали ленту с данными для отправки кому-то еще. Они сказали: «Мы не можем читать вашу ленту». На самом деле, мы не могли. Или любая лента на самом деле.

Мы купили еще один стример и задержали дыхание, пока не установили его.

Мораль истории. Всегда проверяйте свои резервные копии.


11

Последнее место, где я работал, у моего коллеги были его дети в серверной комнате (почему? У меня НЕТ ИДЕИ!).

Он позаботился о том, чтобы они были далеко от серверов, и объяснил своему 5-летнему, что ему не следует трогать ЛЮБОЙ из серверов и ОСОБЕННО ни один из переключателей питания.

На самом деле, он держал их прямо возле двери ... (вы видите, куда это идет ...?)

Мальчик не прикасался ни к одной из кнопок питания сервера ... Нет, это было бы слишком легко объяснить. Вместо этого он нажал БОЛЬШУЮ КРАСНУЮ КНОПКУ, которая была рядом с дверью ... Кнопка, которая отключает питание ВСЕЙ КОМНАТЫ СЕРВЕРА !!!

Телефонные линии сразу начали загораться, удивляясь, почему Exchange, файловые серверы и т. Д. Не были доступны ... Представьте себе, что пытаетесь объяснить это СЕО!

-JFV


4
у нас был курьер, делавший то же самое. Не совсем случайный сисадмин, хотя странная металлическая коробка внезапно появилась над Большой Красной Кнопкой после этого.
Март

см. также «Молли гвардия»: catb.org/~esr/jargon/html/M/molly-guard.html
jay_dubya

Мой брат сделал то же самое, когда ему было 3 года на сайте связи, на котором раньше работал мой отец. Половина сети связи вышла из строя, когда он переключил основной выключатель питания, который был удобно на 18 дюймов от пола. К счастью, сеть была полностью дублирована, поэтому трафик не был потерян, но все же ...
staticsan

@marty - правильная цитата: «Почему? Я не знаю. Он на третьем месте. И мне не до черти». "Какая?" "Я не даю проклятие." "О! Это наша короткая остановка!"
Уоррен

10

Однажды я поссорился с программным обеспечением для мониторинга ИБП APC. Будучи небольшой компанией, у нас было несколько небольших ИБП, и для их мониторинга были настроены различные серверы. Большинство серверов были Linux, но некоторые из них работали под Windows, и поэтому они использовались потому, что программное обеспечение APC - только Windows.

Однако программное обеспечение APC в то время было жестко запрограммировано, чтобы предположить, что ИБП, с которым он разговаривает, также обеспечивает питание ПК! Это был не тот случай для этого сервера, но я обнаружил, что слишком поздно, чтобы сказать ему, чтобы остановить. Также, к сожалению, ведущий программист демонстрировал продукт компании партнеру - это веб-приложение, работающее на том же сервере, на котором я не хотел, чтобы программное обеспечение APC закрывалось ...


1
К счастью, у нас есть apcupsd для Linux
Хуберт Карио

Ну, мы делаем сейчас. Этот инцидент был 10 лет назад. :-)
staticsan

8

Я проводил сисадмином экскурсию по приложению Service Manager. Я сказал: «Если вам когда-нибудь понадобится остановить эту услугу, вы нажмете эту кнопку, но вы никогда не должны делать это в течение дня». Вы бы никогда не поверили, насколько чувствительна ее кнопка мыши!

Через две минуты служба снова запустилась, и никто, казалось, не заметил.


8

Споткнувшись о башенном сервере, который был втиснут за стойку, и ударился головой о заднюю часть основного маршрутизатора Cisco на пути вниз. Таким образом, выясняется, насколько свободно шнуры питания были на самом деле размещены в блоках питания на передней панели Catalyst 6500 .

Да уж. Теперь у нас в каске в серверной комнате. С моим именем на нем.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.