Стратегии мониторинга инфраструктуры


12

В последнее время я столкнулся с некоторым простоем на некоторых сайтах Drupal, которые я развернул. Я хотел бы подходить к проблеме проактивно, а не реагировать на эти простои путем перезапуска служб или самого сервера. Я читал об инструментах мониторинга, таких как nagios, munin, cacti и т. Д., Для мониторинга работоспособности вашего сервера / инфраструктуры, но я на самом деле не пробовал их в работе. Я имею дело с Drupal почти в 99% случаев, и я хотел бы узнать предложения по мониторингу как на уровне сервера, так и на уровне Drupal (кода приложения).

По сути, я хотел бы получать уведомления, когда нагрузка на сервер высока, возможно, указав на виновника (или жертву), чтобы я мог принимать обоснованные решения. Я также хотел бы знать, что люди используют для мониторинга уровня Drupal (например, по электронной почте), когда есть ошибка / предупреждение PHP. (Что происходит, когда сам почтовый сервер не работает?)

Ответы:


6

Если вы хотите отслеживать несколько сайтов Drupal из одного места с помощью предупреждений и т. Д., Я могу сказать, что вы не единственный. Это начинает быть деловой нишей, теперь заполненной:

Оба являются коммерческими подходами SaaS, с бесплатными ограниченными вариантами, чтобы попробовать услугу.

Также есть опция мониторинга с открытым исходным кодом Zabbix с модулем Drupal http://drupal.org/project/zabbix , но тогда вы должны сами настроить и собрать сервер.

Все эти опции имеют свои модули Drupal для отправки серверной и друпаль-специфичной информации на сервер мониторинга.

ОБНОВИТЬ. У Munin также есть специальный модуль Drupal с веткой 2.x, основанной на Drush.


Я опробовал новую реликвию с drupal, и я должен сказать, что в большинстве случаев она действительно хороша в широком смысле (xhprof более или менее является хорошей заменой для отслеживания транзакций в NR, но сбор данных не требуется). Также слышал, что drupal.org использует nagios для мониторинга. Спасибо за ваш ответ. Я подожду еще пару дней, прежде чем выбрать его.
Dipen

5

Независимо от того, что вы используете, единственное, что я определенно рекомендую, - если у вас нет ИТ-персонала, работающего полный рабочий день, - не ведите собственный мониторинг: полагайтесь на сервис, который полностью независим от ваших серверов. Одно дело отключить общедоступный сервер, другое - отключить его и не знать об этом, потому что ваш сервер мониторинга также не работает. Большинство служб мониторинга будут включать все требования, которые вы перечислили "из коробки".

Но рискуя превратиться в вопрос с рекомендациями по шоппингу, сервис, который я использую для перечисленных вами требований, - это Pingdom :

  • Сообщает вам, если сайты вверх (конечно)
  • Измеряет, сколько времени требуется, чтобы ответить
  • Измеряет скорость отклика и доступность любого настраиваемого порта TCP / UDP.
  • Проверка доступности электронной почты
  • Позволяет настраивать HTTP-запросы, позволяя вам тестировать различные аспекты вашего приложения.
  • Обширная отчетность
  • Мониторинг по всему миру, и они добавляют около десятка сайтов мониторинга каждые несколько месяцев

Я уже использую site24x7.com, а также pingdom (для diff-сайта) для оповещения, мне нужен мониторинг, который заранее сообщает мне об использовании ресурсов или потенциальных проблемах и тесно интегрируется с серверной средой. Спасибо за Ваш ответ.
Dipen

2

Вот некоторые предложения Drupal-агностика:

  • Is My Sites Up будет периодически пинговать ваш сервер (ы) и отправлять вам электронные письма (или SMS, если вы получаете несвободный пакет), если ваш сайт отключен или не отвечает.
  • Load Impact - еще один отличный бесплатный инструмент, который может провести стресс-тестирование вашего сайта, чтобы вы могли определить, когда именно он начинает давать сбой.

Что касается самого приложения Drupal, я бы предложил использовать Xdebug + Webgrind или XHProf для профилирования кода и следить за этим вопросом: лучший способ оценить производительность стека Drupal


Спасибо, что сообщили мне о влиянии нагрузки, я использовал jmeter, но теперь это больше работы по настройке планов тестирования и т. Д. Я надеюсь, что влияние нагрузки может иметь дело с аутентификацией drupal.
Dipen

1

Мне нравится pingdom для небольших / средних сайтов, потому что это полезно: оно говорит вам, что что-то не так с точки зрения клиента, что является действенным. Такие вещи, как средняя нагрузка, на самом деле ничего не значат, если у вас нет сильно неверно сконфигурированного стека (чего не следует делать) или вы забиты из Digg / Reddit (в этом случае вы ничего не можете сделать в любом случае, вы должны иметь подготовлен).

Из блога Теда Дзюбы:

Я называю эти типы предупреждений Cool Story, Bro для краткости. Это биты информации, которые не указывают на какое-либо состояние проблемы и не вызывают никаких действий. Прохладные истории - это вещи, о которых вы не должны даже предупреждать. Они тратят ваше время и делают вас параноиком. Cool Story Bro оповещения о таких вещах, как:

  • Средняя нагрузка на сервер выше 20.
  • В очереди заданий содержится более X рабочих единиц. Поздравляю, придурок, твоя очередь делает именно то, что должна.
  • Некоторые метрики больше, чем эмпирически определенное среднее. Я лично обижаюсь на такое дерьмо.

Прочитайте сообщение в блоге, это весело.


0

Я использую check_drupal для мониторинга различных сайтов друпал. Это плагин nagios, который не требует никаких изменений кода для самого сайта drupal. Единственное требование - на сервере должен присутствовать drush .

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.