Первый порядок: отзывчив?
Если вы не можете войти, есть большие проблемы в движении. Обычно это происходит в двух вариантах: аппаратный сбой и программный сбой. Оба потенциально катастрофичны. Чтобы предотвратить ошибки DFA, сначала проверьте общее состояние оборудования - обычно достаточно простого просмотра.
Второй порядок: находятся ли основные структуры системы в хорошем состоянии и порядке?
Проверьте «Золотую Триаду» систем:
- Достаточно процессорного времени для обработки
- На диске достаточно места для хранения
- Достаточно памяти свободно для рабочих нагрузок
За последние несколько десятилетий триада расширилась до «четырехугольника», который включает в себя коммуникации (сетевое взаимодействие):
- Связь функциональна, отзывчива и имеет емкость
Третий порядок: в чем серьезность проблемы?
Какие программы или услуги затронуты? В порядке убывания серьезности: системный (общесистемный), кластерный (группа программ) или изолированный (конкретная программа)? Кластеры программ обычно отключаются, потому что конкретный базовый сервис не работает или не отвечает. Системные проблемы иногда связаны с этим (например, конфликт DNS или IP), но ключ к решению проблемы - знать, где искать.
Четвертый порядок: диагностические инструменты предоставляют полезные данные, имеющие отношение к проблеме?
Теперь, когда у вас есть информация о работоспособности системы (второй порядок) и о том, какие ее части испытывают проблемы (третий порядок), это позволит вам легко определить причину проблемы.
Сообщения об ошибках или файлы журналов должны быть общей путевой точкой в этом путешествии.
Проблемы с процессором:
Дисковое пространство / проблемы ввода-вывода:
- Д.Ф.
- дю
- Lsof
- IOSTAT
- vmstat
Проблемы с памятью:
Проблемы с подключением:
- пинг
- маршрут (и арп и рарп и друзья)
- iptables, ipchains, ipfw (для тех, кто там BSD)
- traceroute или mtr
- hosts, nslookup или dig
- NetStat
Наиболее распространенная жалоба (которую я слышу):
Электронная почта доставляется недостаточно быстро (более одной минуты от отправки до получения получателем) или электронная почта отклоняет мою попытку отправки. Это обычно сводится к ограничителю скорости в Postfix, который включается во время спам-бури, что влияет на способность принимать внутреннюю доставку.
Пример из жизни:
Тем не менее, это не всегда так. Однажды проблема сохранялась независимо от перезапусков службы; так что через 3 минуты пришло время начать осматриваться. Процессор был загружен, но менее чем на 100%, однако нагрузка возросла до 15 на коробке с двумя ядрами и угрожала подняться выше. Команда top показала, что почтовая система была перегружена, наряду со сканером почты, но дочерних процессов amavis не было видно. Это был ключ - команда mail queue (mailq) показала около 150+ недоставленных сообщений, более 80% из которых были спамом, за последние 20 минут. Быстрая настройка для снижения ограничителя скорости (который уменьшил скорость приема спам-шторма) при одновременном увеличении числа дочерних процессов сканирования электронной почты (чтобы помочь в обработке отставания) с последующим перезапуском службы позволила устранить проблему, и система смогла завершить поставки в короткие сроки.
Причиной проблемы было то, что родительский процесс amavis был сбит с мертвой точки, и дочерние процессы в конечном итоге все пошли своим путем (они завершают свою работу после стольких сканирований, чтобы предотвратить утечки памяти). Так что в постфиксе были процессы SMTP, пытающиеся связаться ... из воздуха ... чтобы выполнить сканирование на спам / вирусы, которое было необходимо. В дистрибутиве, который я использовал, были устаревшие пакеты, которые никогда не будут обновлены; так как установка должна была быть заменена через год или около того, я вручную «отменил» установку до последней версии, которая включала несколько исправлений ошибок. У меня не было той же проблемы с тех пор.