[Подобный вопрос был задан здесь без ответов]
Я подобрал модель логистической регрессии с регуляризацией L1 (логистическая регрессия Лассо), и я хотел бы проверить соответствие значимых коэффициентов и получить их p-значения. Я знаю, что тесты Вальда (например) - это возможность проверить значимость отдельных коэффициентов в полной регрессии без регуляризации, но с Лассо я думаю, что возникают дополнительные проблемы, которые не позволяют применять обычные формулы Вальда. Например, оценки дисперсии, необходимые для теста, не соответствуют обычным выражениям. Оригинальная бумага Лассо
http://statweb.stanford.edu/~tibs/lasso/lasso.pdf
предлагает процедуру начальной загрузки для оценки дисперсии коэффициентов, которая (опять же, я думаю) может понадобиться для тестов (раздел 2.5, последний абзац страницы 272 и начало 273):
Один из подходов - использование начальной загрузки: либо можно исправить , либо мы можем оптимизировать по для каждой выборки начальной загрузки. Фиксация аналогична выбору лучшего подмножества ( объектов ), а затем использованию стандартной ошибки наименьших квадратов для этого подмножестват т
Я понимаю следующее: многократно подгонять регрессию Лассо ко всему набору данных до тех пор, пока мы не найдем оптимальное значение для параметра регуляризации (это не является частью начальной загрузки), а затем использовать только функции, выбранные лассо, для подгонки регрессий OLS к подвыборкам. данных и применять обычные формулы для вычисления отклонений от каждой из этих регрессий. (И что мне делать со всеми этими дисперсиями каждого коэффициента, чтобы получить окончательную оценку дисперсии каждого коэффициента?)
Кроме того, правильно ли использовать обычные критерии значимости (например, критерий Уолда, который использует оценочные бета-значения и дисперсии) с оценками коэффициентов Лассо и дисперсиями, оцененными с помощью начальной загрузки? Я абсолютно уверен, что это не так, но любая помощь (используйте другой тест, используйте более простой подход, что бы ни было ...) более чем приветствуется.
Согласно ответам здесь, я подозреваю, что вывод и p-значения просто не могут быть получены. В моем случае p-значения являются внешним требованием (хотя использование регуляризации L1 было моим выбором).
большое спасибо
РЕДАКТИРОВАТЬ Что делать, если я подгоняю логистическую регрессию OLS, используя только переменные, выбранные предыдущим прогоном логистической регрессии Лассо? Видимо (см. Здесь ),
Нет необходимости снова запускать модель после выполнения перекрестной проверки (вы просто получаете коэффициенты из выходных данных cv.glmnet), и на самом деле, если вы подходите к новой модели логистической регрессии без штрафных санкций, вы побеждаете цель использования лассо
Но что, если я сделаю это с единственной целью: вычислить p-значения, сохраняя при этом небольшое количество переменных? Это очень грязный подход? :-)