Я постепенно интегрировал Prometheus в свои рабочие процессы мониторинга, чтобы собрать подробные показатели о работе инфраструктуры.
Во время этого я заметил, что часто сталкиваюсь со специфической проблемой: иногда экспортер, из которого Прометей должен извлекать данные, перестает отвечать на запросы. Возможно, из-за неправильной конфигурации сети - она больше не доступна - или просто из-за сбоя экспортера.
Какова бы ни была причина, я обнаружил, что некоторые данные, которые я ожидаю увидеть в Прометее, отсутствуют, и в этом ряду в течение определенного периода времени ничего нет. Иногда сбой одного экспортера (тайм-аут?) Также может вызывать сбой других (первый тайм-аут выдвинул всю работу выше тайм-аута верхнего уровня - просто спекуляция).
Все, что я вижу, - это пробел в серии, как показано на приведенной выше визуализации. Когда это происходит, в журнале ничего нет. Самометрика Прометея также кажется довольно бесплодной. Мне только что пришлось прибегнуть к ручным попыткам повторить то, что делает Прометей, и посмотреть, где он сломается. Это утомительно. Должен быть лучший способ! Хотя мне не нужны оповещения в реальном времени, я по крайней мере хочу видеть, что экспортер не смог доставить данные. Даже логический флаг «эй, проверь свои данные» будет началом.
Как получить значимую информацию о том, что Прометей не может получить данные от экспортеров? Как я понимаю, почему существуют пропуски без необходимости ручной симуляции сбора данных Прометея? Каковы разумные методы в этом отношении, возможно, даже когда они распространяются на мониторинг сбора данных в целом, помимо Прометея?