Лучший инструмент для мониторинга резервных копий и т. Д. И отслеживания статистики по этим данным [закрыто]


9

Я провел некоторые исследования nagios, opennms и zenoss, но не уверен, что нашел то, что искал.

Главная движущая сила для меня сейчас - возможность контролировать резервные копии. Это включает в себя mysql, mssql и, в конечном итоге, некоторые резервные копии файловой системы.

У нас есть инструмент, который оборачивает процесс резервного копирования для этих различных систем и собирает статистику. Итак, такие предметы, как:

  • количество резервных копий баз данных
  • размер файла резервной копии в дБ
  • размер сжатого файла резервной копии в дБ
  • время сделать резервную копию
  • время архивировать файл

Я хочу иметь возможность A) иметь уведомления, если задания не выполняются в соответствии с расписанием B) иметь возможность устанавливать пороговые значения для статистики, которые будут вызывать уведомления C) Я хочу иметь возможность отслеживать и составлять график статистики

Я планирую отправить эту информацию в приложение мониторинга через HTTP POST. Или приложение мониторинга может также извлечь его из файла журнала.

Тем не менее, у нас будут другие процессы с другой «произвольной» (с точки зрения системы мониторинга) статикой, которую нужно отслеживать и отслеживать, поэтому гибкость очень важна.

Инструмент или инструменты также должны иметь возможность осуществлять общий мониторинг и отслеживание сетевых интерфейсов, нагрузки на сервер и т. Д. После того, как мы запустим мониторинг резервного копирования, мы захотим включить и эти элементы.

Спасибо.

Продолжение :

Я решил попробовать следующее в данном порядке:

  • Zabbix: казался скорее «универсальным магазином», чем другие, и его было легко установить в Ubuntu Lucid RC
  • opsview
  • Nagios с Nagvis, pnp4nagios, nagiosgraph
  • плагин cacti w / npc
  • Мунин: немного шрамы от простоты, но это может оказаться благословением в долгосрочной перспективе

Отправлю ответ, как только я приму решение, может пройти некоторое время, пока это не произойдет.

Ответы:


4

Вместо того, чтобы писать собственное решение для мониторинга, я настоятельно рекомендую вам использовать существующий инструмент, чтобы все основные функции мониторинга и оповещения уже были реализованы. Если вы выберете Nagios, вы получите базовый мониторинг серверных и сетевых ресурсов бесплатно, и следующие плагины должны дать вам большую часть остального, что вам нужно:

check_file_ages_in_dirs скажет вам, существуют ли файлы резервных копий; вот сообщение в блоге, которое я написал с некоторыми основными примерами.

check_file может отслеживать размер файла и его содержимое (используя регулярные выражения), поэтому вы можете выводить статистику резервного копирования в файл и отслеживать ее.

Единственное, что вы не получите от Nagios - это тренды и графики; Я рекомендую взглянуть на Munin для этого, так как его легко настроить, и, как и в Nagios, у него есть стопки подключаемых плагинов.


Просто для пояснения, я бы не стал писать свой собственный инструмент мониторинга. Вопрос заключается в том, чтобы получить рекомендации для инструментов мониторинга / отслеживания тенденций, которые будут интегрированы с созданной мной средой резервного копирования / выполнения сценариев.
Рэнди Сиринг,

4

это должно быть довольно легко настроить с помощью zabbix.

Настроить пользовательские (и очень мощные) пороги очень просто - вы можете написать любое выражение, которое вам нравится, поэтому возможно что-то вроде «уведомить меня, если более 3 из этих 5 серверов не выполнили успешное резервное копирование». Вы также можете использовать 6 различных уровней серьезности и эскалаций для достижения гибких уведомлений и предупреждений.

zabbix имеет встроенные возможности хранения и визуализации данных - все данные хранятся в базе данных, и для построения одной метрики вам не требуется никакой настройки - вы просто получаете график для нее «бесплатно». для длительного хранения и трендов рассчитываются средние значения за один час.

Что касается получения ваших данных о резервных копиях в zabbix, существует множество возможностей. вы можете читать его из файлов, вы можете запускать пользовательские команды, вы можете выгружать его с контролируемой машины, используя утилиту командной строки zabbix_sender ... и может быть еще несколько возможных подходов.

Расширение легко - любая пользовательская команда, которая возвращает данные, может быть использована для сбора, хранения и визуализации этих данных.

Конечно, возможен общий мониторинг операционных систем, приложений, устройств snmp и ipmi и так далее.


1

выполнение

резервные копии организованы backupninja . я использую его просто как обертку для моих скриптов bash - чтобы иметь единый журнал резервного копирования каждый скрипт начинается с

 function handle {
         echo Error
         error problem occured
 }
 set -e
 trap handle ERR

поэтому я получаю сообщение об ошибке в журналах всякий раз, когда любая из команд [например, mysqldump или rsync] не выполняется.

все резервные копии заканчиваются в репозитории rdiff, поэтому у меня есть n дней приращений.

все резервные копии передаются с помощью rsync на центральный сервер хранения.

На сервере хранения все резервные копии проверяются ежедневно, и после успешной проверки данных на локальном диске они копируются на внешний USB-накопитель.

проверка

На всех серверах backupninja.log контролируется nagios. я проверяю, содержат ли они только сообщения DEBUG и INFO. все остальное вызывает тревогу.

каждая резервная копия «касается» тестового файла, наличие и свежесть которого отслеживается на сервере центрального хранилища резервных копий с помощью nagios.

Кроме того, более критические дампы SQL проверяются на их размер [не только свежесть] и полноту [например, в конце дампов MySQL, я ожидаю, что новая отметка времени в

- Дамп завершен 2010-04-22 23:21:02

Все архивы rdiff проверяются ежедневно перед синхронизацией данных на USB-накопителе, а затем снова после их синхронизации. так что даже если ночная передача будет прервана, у меня будет постоянное хранилище только на USB-диске. результат проверки заносится в файл, содержание и свежесть которого проверяется нагиосом.

USB-диски вращаются еженедельно и хранятся в автономном режиме, на всякий случай. это может быть излишним для больших объемов данных, но отлично работает для ~ 300 ГБ медленно меняющихся файлов / дампов.

тенденции

я использую простой пользовательский плагин munin, чтобы построить размер diff / data для каждого репозитория rdiff.

время выполнения может быть проверено в журналах резервного копирования, но пока я не беспокоюсь об этом.


Спасибо за ответ. У меня уже есть инфраструктура, которая обрабатывает резервные копии (и другие задачи), которая собирает статистику, поэтому backupninja будет излишним. Кажется, что Nagios - это консенсус, а затем munin или кактусы для тренда.
Рэнди Сиринг,

1

nagios может делать тренды, но вам нужно вывести perfdata ( http://nagios.sourceforge.net/docs/1_0/perfdata.html ) в ваш плагин. Если вы используете pnp4nagios http://docs.pnp4nagios.org/pnp-0.4/start, то все будет в порядке для вас.

Я обнаружил, что использовать opsview http://www.opsview.org/ гораздо проще, чем настраивать nagios и pnp4nagios. Особенно, если вы являетесь единственным опытным администратором Linux на работе. Opsview - это nagios с отличным веб-интерфейсом, который позволяет выполнять практически все действия из веб-браузера. Поскольку это nagios, вы можете использовать все плагины nagios, которые вы использовали в прошлом. Отличный инструмент.


Спасибо за комментарий, я думаю, что по какой-то причине я исключил opsview, но, основываясь на вашей рекомендации, я могу в конечном итоге попробовать его, прежде чем перейти к собственно nagios.
Рэнди Сиринг,

0

Nagios для оповещения и Cacti для построения графиков, а также некоторые сценарии оболочки или Perl будут делать именно то, что вы хотите. Сочетая их вместе, вы можете делать практически все, в зависимости от того, сколько усилий вы готовы приложить.


Как вы думаете, было бы лучше "выдвинуть" статистику в nagios через HTTP или позволить ей получать статистику из файлов журнала?
Рэнди Сиринг,

0

Я рекомендую OpenNMS . Пакет полностью с открытым исходным кодом, активно поддерживается и регулярно совершенствуется. Для справки я нашел в их вики информацию о конфигурации для мониторинга Symantec Backup Exec .

С их сайта ..

OpenNMS является первой в мире платформой управления сетью уровня предприятия, разработанной в рамках модели с открытым исходным кодом. Он состоит из проекта с открытым исходным кодом, поддерживаемого сообществом, а также организации коммерческих услуг, обучения и поддержки.

Раскрытие информации: у меня нет здесь никакого коммерческого интереса, но владелец The OpenNMS Group , «организации коммерческих услуг, обучения и поддержки», упомянутой выше, является моим другом.


Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.