Использование регуляризации при выполнении статистического вывода


18

Я знаю о преимуществах регуляризации при построении прогностических моделей (смещение против дисперсии, предотвращение переоснащения). Но мне интересно, будет ли хорошей идеей также выполнять регуляризацию (лассо, гребень, упругая сеть), когда основной целью регрессионной модели является вывод на коэффициенты (видя, какие предикторы являются статистически значимыми). Я хотел бы услышать мысли людей, а также ссылки на любые академические журналы или неакадемические статьи, посвященные этому.


4
Регуляризацию можно наблюдать с помощью байесовских глаз, например, лассо соответствует некоторому двойному экспоненциальному априору (с шкалой, выбранной путем перекрестной проверки). Таким образом, одна возможность состоит в том, чтобы идти полным путем.
kjetil b halvorsen

1
определение того, какие предикторы отличны от нуля, - вот что такое лассо! Если вы хотите определить, какие из них статистически значимо отличаются от нуля, крайне важно рассмотреть такие методы, как lasso
user795305

Ответы:


8

Термин «регуляризация» охватывает очень широкий спектр методов. Для целей этого ответа я собираюсь сузить понятие «наказанная оптимизация», то есть добавить штраф или L 2 к вашей задаче оптимизации.L1L2

Если это так, то ответ является окончательным "Да! Ну вроде".

Причина этого заключается в том, что добавление штрафа или L 2 к функции правдоподобия приводит к точно такой же математической функции, что и добавление либо Лапласа, либо Гаусса a до вероятности получения апостериорного распределения (шаг элеватора: предыдущее распределение описывает неопределенность параметров перед просмотром данных, апостериорное распределение описывает неопределенность параметров после просмотра данных), что приводит к байесовской статистике 101. Байесовская статистика очень популярна и выполняется все время с целью определения предполагаемых эффектов.L1L2

Это было "Да!" часть. «Well kinda» - это то, что оптимизация вашего апостериорного распределения выполнена и называется оценкой «Maximum A Posterior» (MAP). Но большинство байесовских не используют оценку MAP, они выбирают из апостериорного распределения, используя алгоритмы MCMC! Это имеет несколько преимуществ, одно из которых состоит в том, что он имеет тенденцию к меньшему смещению вниз в компонентах дисперсии.

Ради краткости я постарался не вдаваться в подробности о байесовской статистике, но если это вас интересует, это то место, где стоит начать поиск.


2
(+1) Но если бы я использовал эти приоры только потому, что они дают хорошие прогнозы - действительно, я вполне мог бы настроить их для этой цели - тогда что мне делать с оценками MAP или последующими распределениями? (Конечно, если я выявлял приоры для представления знаний о параметрах до того, как увидел данные, я точно знаю, что из них делать.)
Scortchi - Восстановить Монику

1
@ Scortchi: это очень хороший момент: использование перекрестной проверки для выбора штрафов выводит вас из классической байесовской системы (насколько я знаю). Построение модели с CV для выбора параметров регуляризации не будет совпадать с этим ответом, но использование регуляризации с фиксированными штрафами, выбранными на основе экспертной информации, будет.
Клифф А.Б.

2
Предостережение: предыдущий подход + MCMC даст действительные результаты только в том случае, если будут изучены и сообщены исходные данные для всех потенциальных коэффициентов. В противном случае мы находимся в режиме выборочного вывода, и большинство наивных методологий вывода будут недействительными.
user3903581

1
(+1) Хороший ответ! Тем не менее, я думаю, что стоит уточнить предложение «Но большинство байесовских не используют оценку MAP, они выбирают из апостериорного распределения с использованием алгоритмов MCMC!» Похоже, вы пытаетесь сказать, что большинство байесов используют полный апостериор при выборе своей оценки. Чтобы увидеть проблему, обратите внимание, что оценка для MAP может быть сделана из выборки для апостериорного распределения.
user795305

8

Существует большое различие между выполнением оценки с использованием штрафов типа гребня и штрафов типа лассо. Оценщики типа гребня имеют тенденцию сжимать все коэффициенты регрессии к нулю и смещены, но имеют легко вывести асимптотическое распределение, потому что они не сокращают любую переменную до точно нуля. Уклон в оценках гребня может быть проблематичным в последующем выполнении проверки гипотезы, но я не эксперт в этом. С другой стороны, штрафы типа Лассо / эластичной сети уменьшают многие коэффициенты регрессии до нуля и поэтому могут рассматриваться как методы выбора модели. Проблема выполнения вывода на моделях, которые были выбраны на основе данных, обычно называется проблемой выборочного вывода или вывода после выбора. В этой области произошло много событий за последние годы.

yN(μ,1)μμ|y|>c>0cycY

Аналогично, лассо (или эластичная сетка) ограничивает пространство выборки таким образом, чтобы гарантировать, что выбранная модель была выбрана. Это усечение является более сложным, но может быть описано аналитически.

Основываясь на этом понимании, можно сделать вывод на основе усеченного распределения данных, чтобы получить достоверную статистику теста. Доверительные интервалы и статистику испытаний см. В работе Lee et al .: http://projecteuclid.org/euclid.aos/1460381681

Их методы реализованы в R-пакете селективных ссылок .

Оптимальная оценка (и тестирование) после выбора модели обсуждается в (для лассо): https://arxiv.org/abs/1705.09417

и их (гораздо менее полный) программный пакет доступен по адресу : https://github.com/ammeir2/selectiveMLE


4

Я бы особенно рекомендовал LASSO, если вы пытаетесь использовать регрессию для вывода, основанного на «какие предикторы статистически значимы» - но не по той причине, на которую вы могли бы рассчитывать.

На практике предикторы в модели имеют тенденцию быть коррелированными. Даже если нет существенной мультиколлинеарности, регрессионный выбор «значимых» предикторов среди набора коррелированных предикторов может существенно различаться от выборки к выборке.

Так что да, продолжайте и сделайте LASSO для вашей регрессии. Затем повторите весь процесс построения модели (включая перекрестную проверку, чтобы выбрать штраф LASSO) для нескольких выборок начальной загрузки (несколько сотен или около того) из исходных данных. Посмотрите, насколько переменной может быть набор «значимых» предикторов, выбранных таким образом.

Если ваши предикторы не являются сильно ортогональными друг к другу, этот процесс должен заставить вас дважды подумать о интерпретации p-значений в регрессии, с точки зрения того, какие отдельные предикторы «значительно» важны.


1
+1 Я согласен со всем написанным, очень прагматичный ответ, но почему бы не использовать эластичные сетки вместо LASSO? (учитывая, что OP также упоминает об этом) Регуляризация гребня будет контролировать корреляции между предикторами немного более заметно.
usεr11852 говорит восстановить Monic

Фактически можно вычислить действительные значения p, оценки и доверительные интервалы в моделях, которые были выбраны с помощью эластичной сетки ЛАССО ИЛИ, просто нужно сделать это правильно.
user3903581

@ user3903581 Я не оспариваю, что можно получить действительные p-значения LASSO для частых пользователей в том смысле, что истинная нулевая гипотеза привела бы к такому большому коэффициенту, как, скажем, в 5% повторяющихся выборок. Проблема заключается в слишком частых попытках приписать причинно-следственные связи только предикторам, которые, таким образом, считаются «существенными», без учета проблем, поднятых коррелированными предикторами.
EdM
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.