Я работаю с временным рядом оценок аномалий (фон - обнаружение аномалий в компьютерных сетях). Каждую минуту я получаю оценку аномалии которая говорит мне, насколько «неожиданным» или ненормальным является текущее состояние сети. Чем выше оценка, тем ненормальнее текущее состояние. Результаты, близкие к 5, теоретически возможны, но встречаются практически никогда.
Теперь я хочу придумать алгоритм или формулу, которая автоматически определяет порог для этого временного ряда аномалии. Как только показатель аномалии превышает этот порог, срабатывает сигнал тревоги.
Распределение частот ниже является примером для временного ряда аномалий за 1 день. Однако, это не безопасно предположить , что каждый раз , когда ряд аномалий будет выглядеть. В этом особом примере, порог аномалии, такой как квантиль .99, будет иметь смысл, так как несколько баллов справа могут рассматриваться как аномалии.
И то же распределение частот, что и во временном ряду (оно колеблется от 0 до 1, так как во временных рядах нет более высоких оценок аномалий):
К сожалению, распределение частот может иметь форму, где квантиль .99 бесполезен . Пример ниже. Правый хвост очень низкий, поэтому, если квантиль .99 используется в качестве порога, это может привести к множеству ложных срабатываний. Такое распределение частот , по-видимому, не содержит аномалий, поэтому пороговое значение должно лежать вне распределения в пределах 0,25.
Подводя итог, можно сказать, что разница между этими двумя примерами заключается в том, что в первом случае наблюдаются аномалии, а во втором - нет.
С моей наивной точки зрения алгоритм должен учитывать следующие два случая:
- Если распределение частоты имеет большой правый хвост (т. Е. Пара аномальных оценок), то квантиль .99 может быть хорошим порогом.
- Если распределение частоты имеет очень короткий правый хвост (то есть нет аномальных оценок), то пороговое значение должно лежать вне распределения.
/ edit: также не существует основополагающей истины, то есть доступны маркированные наборы данных. Таким образом, алгоритм является «слепым» по отношению к природе оценок аномалий.
Теперь я не уверен, как эти наблюдения могут быть выражены в терминах алгоритма или формулы. У кого-нибудь есть предложения как решить эту проблему? Я надеюсь, что мои объяснения достаточны, так как мой статистический фон очень ограничен.
Спасибо за вашу помощь!