Каков наилучший способ автоматического выбора функций для обнаружения аномалий?
Обычно я рассматриваю обнаружение аномалий как алгоритм, в котором функции выбираются специалистами-людьми: важен выходной диапазон (например, «ненормальный вход - ненормальный выход»), поэтому даже со многими функциями вы можете создать гораздо меньшее подмножество, комбинируя особенности.
Однако, предполагая, что в общем случае список возможностей может быть огромным, возможно, автоматическое обучение иногда предпочтительнее. Насколько я вижу, есть несколько попыток:
- «Автоматический выбор характеристик для обнаружения аномалий» ( pdf ), который обобщает описание данных опорных векторов
- «Быстрая основанная на хосте система обнаружения вторжений, использующая грубую теорию множеств» (pdf недоступен?), Которая, как мне кажется, использует грубую теорию множеств
- «Правила обучения для обнаружения аномалий враждебного сетевого трафика» ( pdf , видео ), в которых используется статистический подход
Итак, теперь я задаюсь вопросом, может ли кто-нибудь сказать - при условии обнаружения аномалий и действительно большого (сотни?) Набора функций:
- Эти огромные наборы функций имеют смысл вообще? Разве мы не должны просто сократить набор функций, скажем, до нескольких десятков, и все?
- Если огромные наборы функций действительно имеют смысл, какой из приведенных выше подходов даст лучшие прогнозы и почему? Есть ли что-нибудь не перечисленное, что намного лучше?
- Почему они должны давать лучшие результаты по сравнению, скажем, с уменьшением размерности или построением объектов посредством кластеризации / ранжирования / и т. Д.?