Может кто-нибудь объяснить «прецеденты» для графиков Мунина по умолчанию?


9

При установке munin активирует набор плагинов по умолчанию (по крайней мере, в Ubuntu). Кроме того, вы можете просто запустить, munin-node-configureчтобы выяснить, какие плагины поддерживаются в вашей системе. Большинство из этих плагинов отображают прямые данные. Мой вопрос не в том, чтобы объяснить природу данных (ну ... может быть, для некоторых), но что вы ищете на этих графиках?

Легко установить munin и увидеть причудливые графики. Но наличие графиков и невозможность их «читать» делает их совершенно бесполезными.

Я собираюсь перечислить стандартные плагины, которые по умолчанию включены в моей системе. Так что это будет длинный список. Для полноты картины я также собираюсь перечислить плагины, которые, как мне кажется, понятны, и дать краткое объяснение того, для чего, я думаю, они используются. Пожалуйста, поправьте, если я ошибаюсь с любым из них.

Итак, позвольте мне разделить этот вопрос на три части:

  • Плагины, где я даже не понимаю данные
  • Плагины, где я понимаю данные, но не знаю, на что мне обратить внимание
  • Плагины, которые я думаю, чтобы понять

Плагины, где я даже не понимаю данные

Они могут содержать вопросы, которые не обязательно направлены только на Мунина. Непонимание данных обычно означает пробел в фундаментальных знаниях об операционных системах / оборудовании ....;) Не стесняйтесь отвечать «giyf» ответом.

Это плагины, где я могу только догадываться, что происходит ... Я вряд ли хочу смотреть на эти "догадки" ...

  • Дисковые операции
    ввода-вывода на устройство (количество операций ввода-вывода в секунду) Что такое операции ввода-вывода. Я знаю, что это означает ввод / вывод. Но это так далеко.
  • Задержка диска на устройство (среднее ожидание ввода-вывода)
    Не знаю, что такое ожидание ввода-вывода ...
  • Время обслуживания ввода-вывода
    Это большой беспорядок, и почти невозможно что-либо увидеть на графике.

Плагины, где я понимаю данные, но не знаю, на что мне обратить внимание

  • IOStat (блоки / секунду чтения / записи)
    Я полагаю, что здесь нужно искать шипы? Что означало бы, что устройство интенсивно используется?
  • Доступная энтропия (байты)
    Я предполагаю, что это важно для генерации случайных чисел? Зачем мне это график? До сих пор значение всегда было почти постоянным.
  • VMStat (запущенные / спящие процессы ввода / вывода) В
    чем разница между этим и графиком «процессов»? Оба показывают запущенные / спящие процессы, тогда как граф «Процессы», кажется, содержит больше деталей.
  • Пропускная способность диска на устройство (байт / секунда чтения / записи) В
    чем разница между этим и графиком «IOStat»?
  • Использование таблицы inode
    Что я должен искать на этом графике?

Плагины, которые я думаю, чтобы понять

Я буду угадывать некоторые вещи здесь ... поправьте меня, если я ошибаюсь.

  • Использование диска в процентах (процентах)
    Сколько дискового пространства используется / осталось. Поскольку это приближается к 100%, вы должны рассмотреть возможность очистки или расширения раздела. Это чрезвычайно важно для корневого раздела.
  • Пропускная способность брандмауэра (пакетов в секунду)
    Количество пакетов, проходящих через брандмауэр. Если это происходит в течение более длительного периода времени, это может быть признаком атаки DOS (или мы просто получаем большой файл). Он также может дать вам представление о производительности вашего брандмауэра. Если он выравнивается и вам нужно больше «мощности», вы должны рассмотреть распределение нагрузки. Если он выравнивается и видит корреляцию с загрузкой вашего процессора, это также может означать, что ваше оборудование недостаточно быстрое. Корреляции с использованием диска могут указывать на чрезмерные цели LOG в вашей конфигурации FW.
  • Ошибки eth0 (входящие / исходящие пакеты)
    Сетевые ошибки. Если это значение увеличивается, это может быть признаком неисправного оборудования.
  • трафик eth0 (бит / сек. вход / выход)
    Необработанный сетевой трафик. Это должно соответствовать пропускной способности брандмауэра.
  • количество потоков.
    Постоянно увеличивающееся значение может указывать на процесс, который неправильно закрывает потоки. Исследовать!
  • процессы.
    Нарушение активных процессов (в том числе спящих). Быстрый всплеск здесь может указывать на вилочную бомбу. Медленное, но постоянно растущее значение может указывать на то, что приложение порождает подпроцессы, но не закрывает их должным образом. Расследовать с помощью ps faux.
  • Приоритет процесса
    Показывает распределение приоритетов процесса. Наличие только высокоприоритетных процессов не очень полезно. Подумайте об отмене приоритетов некоторых.
  • Использование процессора
    Довольно просто. Если это происходит, у вас может быть атака, или процесс загружает процессор. Если в обычных операциях он медленно увеличивается и приближается к максимальному, вам следует подумать об обновлении вашего оборудования (или распределении нагрузки).
  • использование таблицы файлов
    Количество активно открытых файлов. Если это достигает максимума, вы можете открыть процесс, но не правильно выпустить файлы.
  • средняя загрузка
    Показывает суммарное значение для нагрузки системы. Должно коррелировать с использованием процессора. Увеличение значений может происходить из ряда источников. Ищите корреляции с другими графиками.
  • использование памяти
    Графическое представление вашей памяти. Пока у вас есть много неиспользованных + кеш + буферов, у вас все хорошо.
  • swap in / out
    Показывает активность вашего раздела подкачки. Это всегда должно быть 0. Если вы видите активность на этом, вы должны добавить больше памяти на свой компьютер!

Отличный вопрос, легко применимый к Cacti и другим графическим приложениям. Графики часто выглядят великолепно, но довольно сложно понять, что они имеют в виду, и, более того, на что нужно обратить внимание.
dunxd

2
Для «Зачем мне это графически? До сих пор значение всегда было почти постоянным». часть, помните, что большая часть информации, как правило, является ценной только в случае возникновения проблем.
Стив Шнепп

Ответы:


11

Дисковые операции ввода-вывода на устройство (операции ввода-вывода в секунду)

С традиционными жесткими дисками это очень важный показатель. Операция ввода / вывода - это операция чтения или записи на диск. С вращающимися шпинделями вы можете обойти от десятков до, возможно, 200 IOPS в секунду, в зависимости от скорости диска и схемы его использования.

Это еще не все: современные операционные системы имеют планировщики ввода-вывода, которые пытаются объединить несколько запросов ввода-вывода в один и тем самым ускорить процесс. Также RAID-контроллеры и т. Д. Выполняют интеллектуальное переупорядочение запросов ввода-вывода.

Задержка диска на устройство (среднее время ожидания ввода-вывода)

Сколько времени потребовалось для выполнения запроса ввода-вывода на отдельный диск, чтобы получить данные оттуда. Если это колеблется в течение нескольких миллисекунд, вы в порядке, если это десятки мс, то вы начинаете видеть потливость вашей дисковой подсистемы, если это еще сотни мс, у вас большие проблемы или, по крайней мере, очень, очень медленная система.

Время обслуживания IO

Как ваша дисковая подсистема (возможно, содержит много дисков) работает в целом.

IOStat (блоки / секунда чтения / записи)

Сколько дисковых блоков было прочитано / записано в секунду. Ищите шипы, а также средний. Если среднее значение начинает приближаться к максимальной пропускной способности дисковой подсистемы, пришло время планировать повышение производительности. На самом деле, планируйте этот путь до этого момента.

Доступная энтропия (байты)

Некоторые приложения хотят получать «настоящие» случайные данные. Ядро собирает эту «истинную» случайность из нескольких источников, таких как клавиатура и мышь, генератор случайных чисел, найденный во многих материнских платах, или даже из видео / музыкальных файлов (видео-энтропид и аудио-энтропид могут это делать).

Если в вашей системе заканчивается энтропия, приложения, которым нужны эти данные, останавливаются, пока не получат свои данные. Лично в прошлом я видел, как это происходило с демоном Cyrus IMAP и его службой POP3; он генерировал длинную случайную строку перед каждым входом в систему и на занятом сервере, который очень быстро потреблял пул энтропии.

Один из способов избавиться от этой проблемы - переключить приложения на использование только полуслучайных данных (/ dev / urandom), но это больше не относится к этой теме.

VMStat (запущенные / спящие процессы ввода / вывода)

Не думал об этом раньше, но я думаю, что это говорит вам о статистике ввода-вывода для каждого процесса, или, главным образом, если они выполняют какой-то ввод-вывод или нет, и если этот ввод-вывод блокирует активность ввода-вывода или не.

Пропускная способность диска на устройство (байт / секунду для чтения / записи)

Это чисто байтовое чтение / запись в секунду, и чаще это более удобочитаемая форма, чем блоки , которые могут варьироваться. Размер блока может отличаться из-за используемых дисков, используемой файловой системы (и ее настроек) и т. Д. Иногда размер блока может быть 512 байт, иногда 4096 байт, иногда что-то еще.

использование таблицы inode

С файловыми системами, имеющими динамические inode (например, XFS), ничего. С файловыми системами, имеющими статические карты inode (например, ext3), все. Если у вас есть комбинация статических inode, огромной файловой системы и огромного количества каталогов и небольших файлов, вы можете столкнуться с ситуацией, когда вы не можете создать больше файлов на этом разделе, даже если теоретически у вас останется много свободного места. Нет свободных инодов == плохо.


учитывая использование инода. В настоящее время я использую ext4, и максимальные индоды и открытые индексы на этом графике очень близки (открыт: размер таблицы 31.11k: 32.12k). Который оставил бы меня с приблизительно 1 000 инодов, остающихся. Поскольку система только что установлена, я не верю, что это указывает на проблему. Ext4 динамически распределяет inode? Я не нашел ничего об этом в Google ...
exhuma

Видите df -i, он сообщает вам текущее использование Inode. ext4 исправил inode, например, мои отчеты Fedora 16 для моего корневого разделаrootfs 3276800 238083 3038717 8% /
Janne Pikkarainen

Хм ... интересно. Это говорит о том, что график Мунина не является правильным. Я также просто не понял, что график Мунина показывает только одно значение. Разве это не должно показывать одно значение для файловой системы, чтобы быть полезным? Смотрите также df -iскриншот ( i44.tinypic.com/oixkiq.png ) против графика munin ( i39.tinypic.com/dxl64z.png )
exhuma

... Значение на графике (25.57k) на самом деле вообще не видно на dfвыходе.
exhuma

После дальнейшего изучения я вижу, что плагин munin open_inodesпринимает значение от /proc/sys/fs/inode-nr. Это ядро, а не значение файловой системы. Еще немного погуглил меня, указав на это: mjmwired.net/kernel/Documentation/sysctl/fs.txt#119 Из этого документа я бы предположил, что предел может быть найден в inode-max. Но этот файл не существует в моей системе. Возможно ли, что это больше не относится к новым ядрам? Это позволило бы мне удалить этот график из моего экземпляра munin!
exhuma
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.