Эластичный / ридж / лассо анализ, что тогда?


19

Я действительно заинтересован в процедуре эластичной сетки для усадки / выбора предиктора. Это кажется очень мощным.

Но с научной точки зрения я не знаю, что делать, когда получу коэффициенты. На какой вопрос я отвечаю? Это те переменные, которые больше всего влияют на этот результат, и это те коэффициенты, которые дают наилучшее соотношение дисперсии / смещения во время проверки?

Это, конечно, очень описательный / прогностический подход по сравнению с классическим подходом p-значение / доверительные интервалы. Инференциальная оценка в настоящее время изучается Tibshirani & Co., но все еще является экспериментальной.

Некоторые люди используют переменные, выбранные эластичной сеткой, для выполнения классического логического анализа, но это устранило бы ограничение на дисперсию, вносимое этой техникой.

Другая проблема заключается в том, что, поскольку лямбда- и альфа-параметры для эластичной сети выбираются путем перекрестной проверки, они подвержены случайной изменчивости. Таким образом, каждый раз, когда вы запускаете (например,) cv.glmnet (), вы будете выбирать немного другое подмножество предикторов с всегда разными коэффициентами.

Я решил решить эту проблему, рассматривая правильную лямбду и альфа как случайные переменные, и повторно выполнить шаг перекрестной проверки n раз, чтобы получить распределение этих параметров. Таким образом, для каждого предиктора у меня будет количество вхождений, а для каждого коэффициента - распределение результатов. Это должно дать мне более обобщенные результаты со статистикой диапазонов (например, sd коэффициентов). Также было бы интересно посмотреть, будут ли лямбда и альфа, выбранные таким образом, асимптотически приближаться к некоторому распределению, поскольку это откроет путь для некоторого теста вывода (но я не статистик, поэтому я не должен говорить о вещах, которые я делаю не совсем понимаю).

Итак, наконец, мой вопрос: как только вы получите предикторы и коэффициенты из эластичной сети с перекрестной проверкой на основе альфа и лямбда, что и как вы должны представить эти результаты? Как вы должны их обсудить? что мы узнали? Какую гипотезу / обобщение мы опровергаем?


Я думаю, что это слишком широко / неясно, чтобы ответить соответствующим образом. В некоторых случаях я нахожу ваши утверждения неясными (например, что вы подразумеваете под « но это устранило бы ограничение на дисперсию, вносимое техникой. »), А в некоторых других случаях вводил в заблуждение (например, « каждый раз, когда вы выполняете (например,) cv.glmnet () вы выберете немного другое подмножество предикторов с всегда разными коэффициентами »- это не всегда так, и даже когда это происходит обычно, это не катастрофично, если CV было сделано правильно.)
usεr11852 говорит Reinstate Monic

мотивация, которую я видел в эластичной сети, связана с переменной кластеризацией (в разделе 2.3 книги по эластичной сетке zou, hastie), которая более подробно рассматривается (несколько иным способом) здесь: ncbi.nlm.nih .gov / pmc / Articles / PMC4011669
user795305

Ответы:


8

Эти методы - лассо и эластичная сетка - были порождены проблемами выбора и прогнозирования признаков. Я думаю, что именно через эти две линзы можно найти объяснение.

Мэтью Ганн прекрасно объясняет в своем ответе, что эти две цели различны и часто решаются разными людьми. Однако, к счастью для нас, методы, которые нас интересуют, могут хорошо работать в обеих областях.

Выбор функций

Сначала поговорим о выборе функций. Мы должны сначала мотивировать эластичную сеть с точки зрения лассо. То есть, чтобы процитировать Хасти и Зоу : «Если есть группа переменных, среди которых попарные корреляции очень высоки, то лассо стремится выбрать только одну переменную из группы и не заботится о том, какая из них выбрана». Это проблема, например, потому что это означает, что мы вряд ли найдем элемент истинной поддержки, использующий лассо - только один, тесно связанный с ним. (В документе упоминается, что это доказано в статье LARS, которую я еще не читал.) На сложность восстановления поддержки при наличии корреляции также указывает Уэйнрайт ,0,5

(a,б)знак равноArgминa',б':сзнак равно|a'|+|б'|(a')2+(б')2|a|знак равно|б|

Кроме того, стоит отметить, что тот факт, что высококоррелированные признаки будут иметь очень похожие оценки коэффициентов, позволяет нам обнаруживать группировки объектов в пределах предполагаемой поддержки, которые аналогичным образом влияют на отклик.

прогнозирование

αзнак равно1

Ледерер, Ю. и Гайнанова показывают, без каких-либо предположений об особенностях, что лассо и упругая сеть могут иметь погрешность предсказания l2, ограниченную одной и той же величиной. Это не обязательно верно, что их границы жесткие, но это может быть интересно заметить, поскольку неравенства оракула, кажется, являются стандартным способом в статистической литературе для количественной оценки прогнозирующей эффективности оценок - возможно, так как распределения настолько сложны! Стоит также отметить, что у Ледерера (1) (2) есть несколько работ по лассо-предсказаниям при наличии коррелированных признаков.

Резюме

Таким образом, представляющие интерес проблемы являются истинной поддержкой, находящейся в пределах предполагаемой поддержки и прогноза. Для восстановления поддержки существуют строго доказанные гарантии (через Уэйнрайта), что лассо выбирает правильные характеристики для модели в предположении низкой корреляции между истинной поддержкой и ее дополнением. Однако, при наличии корреляции, мы можем вернуться к эластичной сети, чтобы с большей вероятностью выбрать объекты в истинной поддержке, чтобы быть среди всего, что он выбирает. (Обратите внимание, что мы должны тщательно выбирать параметры настройки здесь.) И, для прогнозирования, когда мы выбираем параметр настройки через перекрестную проверку, имеет интуитивный смысл, что эластичная сеть должна работать лучше, чем лассо - особенно при наличии корреляции ,

Оставив в стороне прогноз и некоторую формальность, чему мы научились? Мы узнали об истинной поддержке.

Доверительные интервалы

Стоит отметить, что за последние 2 года многое изменилось в отношении правильного вывода для лассо. В частности, работа Lee, Sun, Sun и Taylor обеспечивает точный вывод для коэффициентов лассо, обусловленных выбранной моделью. (Результаты по выводу лассо для истинных коэффициентов были примерно на момент публикации ОП, и они хорошо обобщены в связанном документе.)


Было бы правильно предположить, что регуляризованные ковариатные оценки, вероятно, больше похожи на те, которые мы могли бы найти, повторяя исследование? То есть, как регуляризация помогает минимизировать ошибку прогнозирования вне выборки, она может помочь минимизировать разницу между оценкой выборки и выборкой вне выборки?
Bakaburg

1
@ Бакабург, да, это имеет смысл сказать. Регуляризация создает оценки с меньшей дисперсией.
user795305

9

То, что вы делаете с эластичным, ребристым или лассо, используя перекрестную проверку для выбора параметров регуляризации, подбирает некоторую линейную форму для оптимизации прогноза . Почему именно эти параметры регуляризации? Потому что они лучше всего работают для прогнозирования новых данных. Сжатие оценки коэффициента до нуля, введение смещения (как это делается в Ридже или Лассо) может уменьшить переоснащение и уменьшить дисперсию . Идея состоит в том, чтобы ваши штрафные параметры соответствовали правильному балансу, чтобы оптимизировать прогнозирование новых данных.

Представьте, что процесс генерации данных:

Yязнак равное(Икся,β)+εя

β^βY^JJ

Как вы должны представить свои результаты? Это зависит от того, каков ваш основной вопрос исследования! Вы можете сделать шаг назад и подумать о том, на какой вопрос вы пытаетесь ответить. О чем заботится ваша аудитория? Что ты пытаешься сделать?

  • Прогноз?
  • Оценить коэффициенты?
  • Выбор переменной?

Важно различать два типа вопросов исследования:

  1. Y^J
  2. β^

Y^β^

  • Y^КN
  • Алгоритмы, обученные на разных сгибах, могут иметь существенно разные оценки параметров.
  • Акцент в машинном обучении делается на прогнозировании, а не на последовательной оценке причинных эффектов. (Это контрастирует с эконометрикой, где, как правило, основная проблема заключается в последовательной оценке причинных эффектов). Прогноз, оценивающий некоторую функциональную форму, отличается от оценки причинно-следственной связи. Уровни полиции могут быть хорошим предиктором уровня преступности, и это не означает, что полиция вызывает преступления.

И, как вы понимаете, могут возникнуть проблемы при интерпретации, почему работает некоторая параметризация машинного обучения. Ваша аудитория устраивает черный ящик с предсказаниями? Или как прогнозирование занимает центральное место в вашем вопросе?

Лассо и Ридж: классические причины их использования

  • Y^

  • Вы можете использовать регуляризацию, чтобы предотвратить переоснащение. Например. регрессия гребня в контексте подгонки полиномиальной кривой может работать довольно хорошо.

  • Как указывает @Benjamin в своем ответе, Лассо также можно использовать для выбора переменных. При определенных условиях регулярности Лассо будет последовательно выбирать подходящую модель: нерелевантные коэффициенты будут установлены на ноль.

L1L2

Я продолжаю возвращаться к тому, что довольно трудно интерпретировать результаты регрессии гребня, лассо или эластичной сетки без некоторого дополнительного контекста того, что вы пытаетесь выяснить!


Профессор Сендхил Малленатан выступил с докладом по машинному обучению на собрании AFA в январе 2017 года, мотивировавшим части этого поста.


3
Такое мышление ошибочно, на мой взгляд. Он основан на предположении, что основной феномен достаточно прост, чтобы его мог понять человек. Модели больших размеров в большинстве случаев слишком сложны для понимания людьми, но они очень подходят для крупномасштабного искусственного интеллекта. На самом деле лучший предиктор - лучшая интерпретация явления, можете ли вы понять его или нет.
Кагдас Озгенц

2
@CagdasOzgenc Я думаю, что это правильная точка зрения, что некоторые функции ужасно сложны, трудны для описания людьми, но понятны и понятны с помощью машин (например, оценка шахматной доски). В этих ситуациях может быть лучше поднять руки, даже не пытаясь интерпретировать то, чему научилась машина. С другой стороны, в таких ситуациях, как испытания лекарств, есть причинный эффект, некоторая средняя эффективность, которую вы пытаетесь оценить в присутствии множества препятствий, эффектов отбора и т. Д. Это в некотором смысле разные проблемы и необходимость разные техники.
Мэтью Ганн

1
Y^
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.