Вступление:
У меня есть набор данных с классической «большой p, маленький n проблема». Количество доступных выборок n = 150, а количество возможных предикторов p = 400. Результат - непрерывная переменная.
Я хочу найти самые «важные» дескрипторы, то есть те, которые являются лучшими кандидатами для объяснения результата и помощи в построении теории.
После исследования этой темы я обнаружил, что LASSO и Elastic Net обычно используются в случае больших p, small n. Некоторые из моих предикторов сильно коррелированы, и я хочу сохранить их группировки в оценке важности, поэтому я выбрал Elastic Net . Я полагаю, что я могу использовать абсолютные значения коэффициентов регрессии в качестве меры важности (пожалуйста, исправьте меня, если я ошибаюсь; мой набор данных стандартизирован).
Проблема:
Поскольку у меня мало образцов, как мне добиться стабильной модели?
Мой текущий подход заключается в том, чтобы найти лучшие параметры настройки (лямбда и альфа) в сеточном поиске по 90% набора данных с 10-кратной перекрестной проверкой, усредняющей балл MSE. Затем я тренирую модель с лучшими параметрами настройки на все 90% набора данных. Я могу оценить свою модель, используя R в квадрате для удержания 10% набора данных (что составляет только 15 выборок).
Повторно выполнив эту процедуру, я обнаружил большую разницу в оценках R в квадрате. Кроме того, число ненулевых предикторов меняется так же, как и их коэффициенты.
Как я могу получить более стабильную оценку важности предикторов и более стабильную оценку эффективности конечной модели?
Могу ли я повторно запустить свою процедуру для создания ряда моделей, а затем усреднить коэффициенты регрессии? Или я должен использовать количество вхождений предиктора в моделях в качестве показателя важности?
В настоящее время я получаю около 40-50 ненулевых предикторов. Должен ли я штрафовать количество предикторов сильнее для лучшей стабильности?