Я стал чем-то вроде нигилистов, когда дело доходит до переменных уровней ранжирования (в контексте многомерных моделей всех видов).
Часто в ходе моей работы меня просят либо помочь другой команде составить рейтинг с переменной степенью важности, либо создать рейтинг с переменной степенью важности из моей собственной работы. В ответ на эти запросы я задаю следующие вопросы
Зачем вам этот рейтинг важности переменной? Что вы надеетесь извлечь из этого? Какие решения вы хотели бы принять, используя его?
Ответы, которые я получаю, почти всегда попадают в одну из двух категорий
- Я хотел бы знать важность различных переменных в моей модели для прогнозирования ответа.
- Я хотел бы использовать его для выбора функций, удаляя переменные низкой важности.
Первый ответ тавтологический (я хотел бы, чтобы рейтинг изменчивости важности, потому что я хотел бы, чтобы рейтинг изменчивости важности). Я должен предположить, что эти рейтинги заполняют психологическую потребность при использовании результатов многомерной модели. Мне трудно это понять, так как ранжирование переменных «важность» в отдельности, по-видимому, неявно отвергает многомерную природу рассматриваемой модели.
Второй ответ по существу сводится к неофициальной версии обратного отбора , статистические грехи которого хорошо документированы в других частях CrossValidated.
Я также борюсь с плохо определенной природой ранжирования значимости. Кажется, нет единого мнения о том, какую базовую концепцию должен измерять рейтинг, придавая им особый вкус. Есть много способов присвоить оценку важности или рейтинг, и они обычно страдают от недостатков и предостережений:
- Они могут сильно зависеть от алгоритма, как при ранжировании по важности в случайных лесах и gbms.
- Они могут иметь чрезвычайно высокую дисперсию, радикально изменяющуюся из-за возмущений к базовым данным.
- Они могут сильно пострадать от корреляции во входных предикторах.
Итак, из всего сказанного, мой вопрос заключается в том, каковы некоторые статистически обоснованные варианты использования рейтингов переменной важности или каков убедительный аргумент (либо статистику, либо непрофессионалу) о бесполезности такого желания? Я заинтересован как в общих теоретических аргументах, так и в тематических исследованиях, в зависимости от того, что будет более эффективным в изложении сути.
glmnet
доступно?