Какой инструмент вы используете для мониторинга ваших серверов?


187

Более полный список инструментов мониторинга и их функций можно найти на этой странице Википедии .

Как говорится в вопросе, какие инструменты наиболее часто используются для этой задачи и каковы их сильные и слабые стороны?


На какой платформе работает ваш сервер?
Гленн Славен

1
Мои серверы работают под управлением Debian Lenny, но вопрос в основном не сосредоточен только на мониторинге UNIX, так как многие инструменты, вероятно, будут иметь некоторую кроссплатформенную поддержку.
Арон Роттвил

Может быть, они используют разные инструменты, но с точки зрения общей системы, вы в конечном итоге будете делать одно и то же снова и снова в разных системах. Это всего лишь сценарий, чтобы выжать последний бит данных, который вы хотите. В этом контексте я бы рассматривал «инструменты» как экземпляр записи (сервер мониторинга), а не сам плагин / скрипт, который выплевывает данные
serverhorror

Мне также нравится следить за приложениями (производительность, доступность и т. Д.). У инструментов мониторинга, кажется, есть спектр с их способностью контролировать оборудование на одном конце и их способность контролировать приложения на другом. Аппаратное обеспечение <----- + -----> Приложение
Натан Хартли

Ответы:


136

Я использовал Nagios в прошлом с успехом. Это очень расширяемый (более 200 надстроек), относительно простой в использовании и много отчетов. Отрицательной будет начальная настройка.


10
Nagios прекрасно работает для мониторинга всех типов хостов (Windows, Linux, Маршрутизаторы, Коммутаторы и т. Д.). Я рекомендую использовать такой инструмент конфигурации, как fruity или Lilacto, чтобы облегчить настройку. NSClient ++ на окнах и nagios-statd на linux для мониторинга запущенных процессов, использования диска и т. Д.
TonyB

К сожалению, Nagios требует агента на Windows-боксах - в прошлом я обнаружил, что агент заведомо склонен к случайной смерти.
PowerApp101

Мы смотрели на Nagios и Zabbix для нашего мониторинга. Zabbix победил после короткой оценки, в основном благодаря простоте развертывания и функциональности (например, Zabbix включает в себя графику в качестве основной функции, в то время как Nagios требуется плагин). Я обнаружил, что настройка Nagios - это боль.

GroundWork OpenSource имеет устройство для мониторинга сети, которое использует Nagios в своей основе и упрощает настройку / управление
Rog

12
Существует новая вилка nagios под названием icinga. Пока нигде нет, но их цели выглядят многообещающими. icinga.org
cstamas

70

Cacti - очень хороший веб-интерфейс для RRDTool , предоставляющий очень удобные графики и статистику. RRDTool - это часть, которая собирает данные из нескольких систем и отслеживает широкий спектр технических данных.

Мы используем это решение cacti / RRDTool для мониторинга систем Unix и Windows. Мы получаем множество полезных показателей, включая загрузку, использование ЦП / ОЗУ, пространство на жестком диске, количество зарегистрированных пользователей, сетевой трафик, запущенные процессы и т. Д.

Вы найдете больше информации о кактусах на Что такое кактусы? стр.


Cacti - это увлекательное решение, которое отлично выглядит и продается по отличной цене (бесплатно). Однако настройка сетевых устройств является PITA и была плохо документирована. Возможно, сейчас будет лучше, но я бы не стал заниматься этим, пока вы не проведете свое исследование.
Крис Портер

57

Лично я люблю Munin, который очень прост в установке и написании плагинов, поскольку у него очень простая архитектура. Существует достаточно много плагинов для всех целей, которые вы можете себе представить, так что вам, вероятно, даже не придется писать плагины в первую очередь.

Он также предоставляет красивые графики и возможность настроить (очень простые) оповещения.


2
Я тоже большой поклонник Мунина. Он имеет поддержку для интеграции с Nagios (так что вы можете запустить оба), а также поддержку всех распространенных разновидностей Unix. Я не думаю, что есть какая-либо поддержка для мониторинга узла Windows - однако он написан на Perl, поэтому, хотя он может быть нетривиальным, это, безусловно, должно быть возможным .
Джон Далтон

2
@John. Узлы Windows поддерживаются либо через munin-node-win32, который является нативным узлом munin, либо через SNMP, как и любой хост.
Стив Шнепп

34

Zabbix . Это с открытым исходным кодом, и достаточно прост в установке и настройке. У нас есть множество пользовательских сценариев мониторинга, которые поступают на zabbix сервер, но он заботится о централизации этих данных, их соответствующем отображении, уведомлениях (электронная почта, IM, SMS, Twitter и т. Д.) И так далее.


2
Мы также используем Zabbix и считаем его довольно мощным и настраиваемым. Мы протестировали Zabbix и Nagios и в итоге выбрали Zabbix, потому что, хотя Nagios, похоже, имеет хорошую репутацию, установка немного затруднительна, и многие функциональные возможности исходят из плагинов, а не из основных приложений (графическое представление является хороший пример этого, вы получаете это бесплатно с Zabbix).

3
Я предпочитаю Zabbix, потому что он гибок в плане построения графиков и картирования вашей инфраструктуры (в плане доступности), а также в гибком способе мониторинга.
Андриоид

29

Я проводил развертывание Spiceworks в нашей компании, и мы считаем, что это отличный инструмент не только для мониторинга серверов, но и всего остального в сети.

Он выполняет такие функции, как автоматическая инвентаризация и пользовательский мониторинг, чтобы отправлять вам электронные письма при возникновении проблемы (например, в принтере осталось 10% чернил или на жестком диске этого сервера 20%).

Его недостатком, вероятно, будет плотность информации на компьютер, не поймите неправильно, у нее много данных на машину, но для таких вещей, как серверы, где вам может потребоваться много статистики, вам может понадобиться другой инструмент.

РЕДАКТИРОВАТЬ: о, я упоминал, что его бизнес-модель основана на том, что она всегда бесплатна.


Spiceworks делает много классных вещей - и БЕСПЛАТНО.

3
SpiceWorks имеет действительно большое сообщество, которое также частично совпадает с ServerFault. Будет интересно увидеть взаимодействие между сообществами. Я также использую SpiceWorks. Удивительный инструмент.
Скотт Алан Миллер

Сейчас использую это по вашей рекомендации. Отличный инструмент.
Марко Картер

Мы используем это на нашей работе. Это довольно впечатляет. Один инвентарь оборудования, не говоря уже о программном обеспечении, стоит посмотреть сам по себе.
Терри

В прошлый раз, когда я использовал Spiceworks (версия 3), у него не было никакого способа добавить или изменить аппаратные компоненты, такие как мониторы, видеокарты и т. Д. Он обнаруживал их, но часто неправильно. Таким образом я все еще использую GLPI + OCSNG, который я ненавижу .
Боден

18

Smokeping не только проверяет доступность различных серверов и сервисов, но и отслеживает их задержку, обеспечивая при этом простоту в использовании, красивый внешний вид и быстрое отображение графиков.

Широкий спектр плагинов для измерения задержки доступен из коробки. Если вы знаете какой-нибудь Perl, то легко создать свои собственные для любых экзотических нужд.

Большие установки получат выгоду от Master / Slave System для распределенных измерений.

Настраиваемая система оповещений поможет вам заметить проблемы до того, как они начнут влиять на пользователей или перерастут в серьезные перебои.

Smokeping - это бесплатное программное обеспечение с открытым исходным кодом, написанное на Perl Тоби Отикер, создателем MRTG и RRDtool.


Smokeping приятно видеть, на что похожа ваша сеть
Рори

Smokeping отлично подходит для визуализации задержки.
Джеймс

15

OpenNMS используется там, где я работаю, чтобы контролировать более тысячи машин Linux. Мы отслеживаем аппаратное обеспечение каждой машины и приложения, работающие на них.


+1 для OpenNMS, мы также используем это на работе для мониторинга тысяч машин и интерфейсов. У нас много разных операционных систем, и мы можем контролировать их все с помощью OpenNMS.
Стив К

не мой первый выбор, но очень полезный

как это с добавлением MIB для нового оборудования?
Словон

OpenNMS имеет много статистики snmp уже в конфигурации по умолчанию, поэтому он может автоматически обнаруживать и начинать строить графики из коробки. Новые статистические данные SNMP довольно легко добавить, просто дайте имя для RRD, OID и тип данных и поместите их в группу для типа устройства, к которому применяется статистика.
Мтинберг

15

Zenoss Core очень полезен , мы используем его (около года) для облегченного мониторинга серверов, сетевых коммутаторов и ИБП.

Zenoss Core - отмеченный наградами продукт для мониторинга ИТ с открытым исходным кодом, который эффективно управляет конфигурацией, работоспособностью и производительностью сетей, серверов и приложений с помощью единого интегрированного программного пакета.


Если вы используете бесплатную версию Zenoss Core, будьте готовы сделать много настроек SNMP MIB. Я также обнаружил, что он постоянно отказывается собирать данные операционной системы на некоторых из моих серверов, и его удивительно сложно настроить для простых задач, таких как проверка содержимого веб-страницы.
gareth_bowles

Может сочувствовать проблемам MIB, но проверка веб-страниц может быть выполнена с помощью плагинов Nagios на Zenoss.
Гимел

12

Nagios великолепен, так как он бесплатный и для него есть множество плагинов. Однако пользовательский интерфейс и конфиг очень сложны.

В pro / con есть полная противоположность, которая также хороша - это Microsoft System Center Operations Manager (SCOM), который не бесплатен, имеет меньше плагинов, но установка и настройка великолепны и просты.

Я должен признать, что если бы я был в основном компанией Microsoft, имел очень высокие требования к надежности (то есть не мог позволить себе сломать мониторинг) или должен был подумать о том, чтобы заставить разработчиков работать с ним, тогда SCOM был бы моей рекомендацией над Nagios.


12

Я использовал:

  • Nagios - требует некоторой старой настройки командной строки, не красивой, но прочной и функциональной. Он был заменен:
  • Zenoss - требует гораздо меньше усилий для настройки, имеет коммерческий вариант. После запуска все остальное контролируется через браузер. Очень мощный, но требует некоторой работы MIB, если вы используете бесплатную версию.
  • Intermapper - коммерческая программа, которую можно потратить, если у вас есть много узлов для мониторинга. Кажется, что написано на Java (к лучшему или к худшему).
  • Spiceworks - не пробовал последнюю версию. В старых версиях требовалось чуть больше звука, чтобы заставить его реагировать, но в остальном все работает хорошо. Бесплатная версия поставляется с надписью.

Мы широко используем Intermapper.
sysadmin1138

Я также использую InterMapper. Консольный клиент написан на Java. Сервер написан на Python. Postgres используется в качестве серверной базы данных для агрегирования данных и составления отчетов.
lsiu

11

Мы используем AlertFox уже несколько недель и очень рады этому. Он не только проверяет наше время безотказной работы и производительность, но также контролирует корзину покупок, вход пользователя и другие важные части веб-сайта с помощью сценариев транзакций (на основе iMacros).

Для внутреннего контроля (места на диске и т. Д.) Мы используем Nagios .


10

PRTG Network Monitor - не могу сказать достаточно хороших слов об этом. Потрясающий веб-интерфейс и особенно отлично подходит для мониторинга маршрутизаторов (пропускной способности и т. Д.) И других устройств через SNMP и измерения времени безотказной работы для SLA и т. Д.

www.paessler.com


9

Как человек Windows, мама. Мы планируем перейти на Systems Center Operations Manager (SCOM), но не потребуется, пока мы не начнем развертывание Windows 2008.


Я также использую маму. Я люблю это и ненавижу это в то же время.
Спулсон

SCOM - это отличная платформа для мониторинга сред Windows на базе предприятия. Настоящим гением здесь являются пакеты управления, выпущенные самими группами продуктов Microsoft (это является частью MS Common Engineering Criteria, согласно которой каждый продукт имеет SCOM MP в течение 90 дней после RTM). Получение советов и знаний от самих групп разработчиков продуктов может значительно улучшить способность оперативного отдела поддерживать работоспособность и работоспособность, не беспокоя старших администраторов за каждую мелочь.
Кевин Колби

8

Я являюсь частью проекта по обновлению оперативного мониторинга. У нас были разные поставщики, которые представили несколько больших долларовых систем и смешали несколько более дешевых альтернатив для сравнения.

Одним из них является Hyperic , который также доступен как бесплатное решение с открытым исходным кодом. Я был впечатлен его предоставленными возможностями и расширяемостью для пользовательских агентов.


Хотя это нелегко для ресурсов, это, безусловно, отличный инструмент для мониторинга!
Винсент Де Баер

8

Для мониторинга статистики (использование памяти, загрузка, активность mysql, активность apache и т. Д.) Я использую Munin . Из коробки уже отслеживается множество вещей и строятся графики для разных временных интервалов (последние 24 часа, последние 7 дней, последний месяц, прошлый год). С помощью плагинов можно отслеживать еще больше вещей. Это вывод HTML-страниц с красивыми графиками.

Munin имеет архитектуру master / node: узлы собирают статистику на сервере, а master хранит данные и создает HTML и графики.

Я использую Monit, чтобы отслеживать запущенные процессы и перезапускать или предупреждать меня, когда возникают определенные настраиваемые условия (высокая загрузка процессора, высокое использование памяти, отсутствие HTTP-ответа и т. Д.) Monit также может отслеживать более общие сведения о сервере, такие как процессор загрузка, использование памяти, состояние жесткого диска или использование диска.

Monit необходимо настроить для каждой службы или оборудования, которое вы хотите отслеживать, и как реагировать, если что-то идет не так. Наиболее часто используемые варианты - ничего не делать, отправить электронное письмо с предупреждением или перезапустить службу.

Монит великолепен, когда он работает, но иногда он не запускает, не останавливает и не перезапускает службу, и не так много диагностической информации, чтобы сказать вам, что пошло не так. Это означает, что вы не знаете, была ли проблема в вашем сервисе или в конфигурации Monit, которая работает с минимальной средой, подобной cron.

Оба инструмента доступны по умолчанию в большинстве дистрибутивов Linux.


8

Я удивлен, что никто не упомянул logwatch или logcheck для серверов linux - экономит массу времени на чтение логов !!


Эти инструменты действительно не дадут вам метрики и долговременную читаемость тенденций вашей инфраструктуры. Это хорошее дополнение, но я бы не стал полагаться только на них. Afaik «logwatch» является несколько злым, поскольку он будет сообщать только об ошибках, о которых вы сообщаете, в отличие от «logcheck», когда вы сообщаете инструменту известные вещи, и он сообщает обо всем остальном.
serverhorror


7

Наш проект использует Ganglia для наших более чем 100 узловых кластеров. Одна из причин, по которой мы его используем, заключается в том, что это инструмент мониторинга, который поставляется с Rocks .

Для нас важно иметь очень низкие накладные расходы на каждом узле, чтобы как можно больше ресурсов было доступно для вычислений. Ganglia дает нам хороший обзор кластера и позволяет при необходимости развернуть детали до отдельных узлов. Помимо того, что мы знаем, что происходит сейчас, мы можем довольно хорошо взглянуть на то, что произошло за последний час, день, неделю, месяц и год. Графики различной статистики являются базовыми и функциональными.


6

Все зависит от того, что вы подразумеваете под «монитором»!

  • Это (система или услуга) доступно? Мы используем нагиос .
  • Что это делает? Мы используем munin для серверов linux и cacti практически для всего остального, хотя иногда бывает сложно настроить ...
  • Что это сделало? Мы используем syslog-ng, чтобы сконцентрировать системные журналы в одном месте, а затем ежедневно запускаем настраиваемый скрипт logcheck для отправки отчетов по электронной почте. Мы ищем нечто подобное для серверов Windows.

5

Graphite ( http://graphite.wikidot.com/ ) - новый участник событий, чтобы проверить свою конкурентоспособность с Cacti и решениями на основе RRDTool.

RRDTool заменен резервным хранилищем под названием Whisper. Документы дают довольно хороший обзор того, чем они отличаются, и мне действительно нравится CLI для специальной графики при исследовании чего-либо.


4

Мы используем (и как) WhatsUp от Ipswitch для нашей относительно небольшой сети Windows. Он прост в настройке, относительно прост в управлении и знает, как работать с серверами Windows, а также со стандартными компонентами.

Для больших сетей, сетей, не ориентированных на Windows, или сетей с большим количеством разнообразных вещей, я искренне рекомендую OpenNMS . Программное обеспечение OpenNMS бесплатное, и компания более чем рада продать услуги поддержки и внедрения. Это также, оказывается, управляется очень острым моим другом из колледжа!


4

Для тех, кому не нравится веб-интерфейс Nagios, есть NPC , плагин для Cacti, который делает интерфейс Nagios доступным из Cacti, но с лучшим внешним видом (ajax и т. Д.).

Он считывает данные из базы данных, предоставленной NDO2DB , что является отличным способом сделать вашу инфраструктуру доступной из базы данных для использования в сценариях и других инструментах.


4

В настоящее время мы используем PRTG от Paessler . Это отлично Никаких агентов не требуется, отличный веб-интерфейс Ajax, историческая регистрация, графики, WMI и т. Д. И т. Д. Есть бесплатная версия с 10 датчиками, но мы взяли несколько штук для корпоративной версии. Деньги потрачены не зря.


4

Хоббит - это более быстрая лучшая версия Большого Брата (которая в наши дни кажется пугающе коммерческой).

http://hobbitmon.sourceforge.net/


Мы также используем Hobbit, он потрясающий, он обрабатывает более 600 серверов с 10+ мониторами каждый, многие из которых обновляются каждую минуту
MarkR

1
Хоббит теперь называется Xymon. hswn.dk/hobbiton/2008/11/msg00123.html
Клинтон Блэкмор

4

Если вы спешите и хотите получить быстрый инструмент для мониторинга вашего MS-сервера, используйте монитор производительности для Windows, настройте журнал счетчиков с пользовательским шаблоном мониторинга и обычным расписанием (например, собирайте данные в течение 5 минут каждый час). Затем загрузите Microsoft LogParser и инструмент анализа производительности журналов (PAL) Codeplex ( http://pal.codeplex.com/ ), чтобы увеличить счетчик журналов. PAL создаст отличный документированный отчет со ссылками на возможные документы / инструменты для решения проблем.


3

Я использую комбинацию Solarwinds, вкладок производительности сервера VMware и пользовательских сценариев.

Монитор производительности сети Solarwinds Orion - это то, что я использую с нашей системой Windows. админы на моих веб серверах. На нем по-прежнему работают некоторые полезные метрики приложений, но в нем есть хорошая информация об элементах базового уровня (диск, сеть, процессор).

Для моих гостей VMware, я люблю вкладки производительности.

Для моих серверов Sun, когда мне нужно что-то, что недоступно в Solarwinds (потому что наш админ не добавил это или что-то еще), я пишу собственные сценарии (обычно на Perl) для мониторинга таких вещей, как состояние зеркала, использование подкачки и т. Д.

Я бы хотел больше узнать о Solarwinds, но это всего лишь 26 часов в день (или, как считает мой босс), поэтому я считаю, что это может быть немного ограничивающим ...


3

Мы используем OpsView , который работает поверх Nagios. Веб-интерфейс помогает нам развернуть новые определения монитора хоста без необходимости доступа по SSH, предоставляет публичные представления и записывает исторические значения. Это удобно для обеспечения и определения подходящих базовых показателей.



2

Извините, но я использовал множество пользовательских скриптов. Хотя это далеко от идеала, я сомневаюсь, что есть более распространенное решение.


Всегда будут нужны нестандартные скрипты!
Techboy

2

Мы написали наше собственное программное обеспечение для мониторинга. Наш код не так сложен, как коммерческий пакет, но нам не нужно было много функциональности. Нам было проще написать свой собственный, чем исследовать другие пакеты и научиться их использовать. Код делает то, что мы хотим, и его легко расширять.


2
Я думаю, что важно продумать последствия такого решения. Написать что-то с нуля может не так уж много усилий - но обслуживание в будущем - это медведь.
Адам

Я мог бы представить, что техническое обслуживание является проблемой, но это не было для нас, хотя мы работали с этой системой в течение многих лет. Поскольку база кода небольшая и знакомая, нам было легко добавлять новые функции по мере необходимости. Поддержание коммерческого решения также может быть проблемой с течением времени, привлечение новых поставщиков, когда оригинальный продукт не делает всего, что вам нужно, и т.
Д.
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.