Трудно дать конкретные ответы, так как 90% этой работы - это опыт, который учит вас, где искать, какого рода проблемы, а остальные 90% знают, где искать в Google, чтобы получить подсказки, с чего начать.
Я обычно пробую бумажный пакет, например, чтобы клиент продемонстрировал проблему (в основном, чтобы исключить проблемы с пальцами и любые проблемы, которые могут возникнуть у клиента при описании своей проблемы), а затем пытаюсь продублировать проблему на другом компьютере. Это часто дает вам понимание того, где искать.
Не забывайте исправление проблемы перезагрузки, особенно для систем Windows, даже сегодня. Раньше было так много, что я спрашивал людей: «Вы перезагрузились? Хорошо, попробуйте и дайте мне знать, если проблема не исчезнет» - это решило очень большой процент вопросов, которые мне задавали.
Часто возникают проблемы с разрешением DNS и базовыми подключениями (списки ACL на маршрутизаторах, воздушные промежутки в сети, ping / traceroutes / mtrs для удаленных сайтов и т. Д.).
Для сервисов, которыми вы непосредственно управляете, запуск nagios или чего-то такого, что гарантирует, что сервис действительно работает, часто может побудить вас исправить проблемы, прежде чем клиенты сообщат вам о них. Вы, вероятно, также хотите запускать сбор статистики, либо напрямую через munin или что-то еще, либо через SNMP для чего-то вроде Cacti.
Я обычно стараюсь, чтобы Cacti работал по крайней мере со всеми моими основными коммутаторами и межсетевыми экранами; где возможно, я запускаю Кактусы против всего, что могу. В этих случаях я обычно ищу такие вещи, как количество ошибок порта или чрезмерный трафик. Графики брандмауэра с некоторых устройств могут показать вам использование процессора и одновременных сеансов; вы узнаете, при каких порогах у вашего брандмауэра возникают проблемы.
Ваш брандмауэр может войти в систему на системном журнале; если это так, запишите все, что можете, и посмотрите на них подсказки. Это будет проще, если вы запустите что-то вроде syslog-ng или rsyslog или splunk, что позволит вам несколько разделить журналы, а не работать с одним монолитным файлом.
Я также пытаюсь запустить nfsen, по крайней мере, внутри моего брандмауэра и, по возможности, для связи с интернет-провайдером. Это позволяет вам вернуться в прошлое, чтобы посмотреть на сессии, чтобы увидеть, кто чем занимается; это иногда может поймать интересные поведения.