Какую проблему решают методы усадки?


61

Курортный сезон дал мне возможность свернуться калачиком рядом с огнем вместе с «Элементами статистического обучения» . Исходя из (часто) точки зрения эконометрики, у меня возникают проблемы с пониманием использования методов усадки, таких как регрессия гребня, лассо и регрессия с наименьшим углом (LAR). Как правило, меня интересуют оценки параметров самих себя и достижение объективности или хотя бы согласованности. Методы усадки не делают этого.

Мне кажется, что эти методы используются, когда статистика обеспокоена тем, что функция регрессии становится слишком чувствительной к предикторам, что она считает предикторы более важными (измеряемыми по величине коэффициентов), чем они есть на самом деле. Другими словами, переоснащение.

Но OLS обычно предоставляет объективные и непротиворечивые оценки. (Сноска) Я всегда рассматривал проблему переоценки не предоставления слишком больших оценок, а скорее доверительных интервалов, которые слишком малы, потому что процесс выбора не принимается во внимание ( ESL упоминает этот последний момент).

Несмещенные / непротиворечивые оценки коэффициентов приводят к непредвзятым / непротиворечивым прогнозам результатов. Методы сжатия подталкивают прогнозы ближе к среднему результату, чем OLS, по-видимому, оставляя информацию на столе.

Повторюсь, я не вижу, какую проблему пытаются решить методы усадки. Я что-то пропустил?

Сноска: Нам нужно условие полного ранга столбца для идентификации коэффициентов. Предположение об экзогенности / нулевом условном среднем для ошибок и предположение о линейном условном ожидании определяют интерпретацию, которую мы можем дать коэффициентам, но мы получаем непредвзятую или непротиворечивую оценку чего-либо, даже если эти предположения не верны.


1
Здесь есть несколько связанных вопросов. Это один: stats.stackexchange.com/questions/10478/…
кардинал

2
Обратите внимание, что существуют простые и довольно слабые условия выбора параметра усадки для достижения согласованности параметров. Это подробно описано в известной статье Knight & Fu (2000) и охватывает случаи, выходящие далеко за пределы регрессии гребня и лассо. За последние несколько лет согласованность выбора моделей также стала популярной темой.
кардинал

@cardinal, спасибо за указатели на результаты моделирования согласованности для лассо; Я посмотрю. Конечно, эти результаты также могут быть найдены для OLS. Результаты подразумевают, что обе процедуры попадают в одно и то же место. Так что я до сих пор не понимаю, почему мы будем использовать лассо над OLS.
Чарли

1
Согласованность модели - это другое понятие, чем асимптотическая согласованность оценок параметров. Знаете ли вы (знакомы ли) эту разницу?
кардинал

@cardinal, По согласованности модели, я предполагаю, что вы имеете в виду, что включены правильные предикторы. Мы можем получить это, используя критерий AIC в процессе выбора с использованием OLS. Я предполагаю, что вы подразумеваете, что в пределе Лассо выбирает правильную модель с "неправильными" коэффициентами?
Чарли

Ответы:


47

Я подозреваю, что вы хотите получить более глубокий ответ, и мне придется позволить кому-то другому предоставить это, но я могу дать вам некоторые мысли по поводу регрессии гребня со свободной, концептуальной точки зрения.

Регрессия OLS дает оценки параметров, которые являются несмещенными (т. Е. Если такие выборки собираются и параметры оцениваются неопределенно, распределение выборки оценок параметров будет сосредоточено на истинном значении). Кроме того, распределение выборки будет иметь самую низкую дисперсию из всех возможных несмещенных оценок (это означает, что в среднем оценка параметра OLS будет ближе к истинному значению, чем оценка из какой-либо другой несмещенной процедуры оценки). Это старые новости (и я прошу прощения, я знаю, что вы это хорошо знаете), однако тот факт, что дисперсия ниже , не означает, что она ужасно низкая, При некоторых обстоятельствах дисперсия распределения выборки может быть настолько большой, что делает оценку OLS по существу бесполезной. (Одна из ситуаций, когда это может произойти, - это высокая степень мультиколлинеарности.)

Что делать в такой ситуации? Что ж, можно найти другую оценку, которая имеет меньшую дисперсию (хотя, очевидно, она должна быть предвзятой, учитывая то, что было оговорено выше). То есть мы меняем объективность на меньшую дисперсию. Например, мы получаем оценки параметров, которые, вероятно, будут существенно ближе к истинному значению, хотя, вероятно, немного ниже истинного значения. Стоит ли этот компромисс - это решение, которое аналитик должен принять, когда столкнется с этой ситуацией. Во всяком случае, регрессия гребня является именно такой техникой. Следующая (полностью сфабрикованная) фигура предназначена для иллюстрации этих идей.

введите описание изображения здесь

Это обеспечивает краткое, простое, концептуальное введение в регрессию гребня. Я меньше знаю о лассо и LAR, но я верю, что те же идеи могут быть применены. Больше информации о регрессии лассо и наименьшего угла можно найти здесь , особенно полезна ссылка «простое объяснение ...». Это дает гораздо больше информации о методах усадки.

Я надеюсь, что это имеет какое-то значение.


12
Это дает некоторые хорошие концептуальные подсказки. Во втором абзаце много внимания уделяется непредвзятости, но отсутствует важное предупреждение. Если (а) линейная модель не является «правильной» (и, когда она?) И (б) все релевантные предикторы включены в модель, оценки коэффициентов, как правило, будут смещенными.
кардинал

5
Мое ограниченное понимание компромисса смещения / дисперсии состоит в том, что кто-то, ищущий объяснение (как, возможно, оригинальный плакат), предпочел бы непредвзятость, даже если дисперсия была больше, но кто-то, делавший прогноз, вполне мог бы предпочесть что-то с небольшой дисперсией, даже если смещение вводится.
Уэйн

2
@Wayne: Действительно, это (один из) суть вопроса. Большая часть точки зрения в ESL исходит из перспективы предсказания, и поэтому это окрашивает большую часть их анализа. Выполнение вывода по одному коэффициенту, особенно в условиях наблюдения, является очень скользким делом. Потребовалось бы несколько серьезных убеждений, чтобы утверждать, что оценки коэффициентов были действительно «беспристрастными».
кардинал

1
Через некоторое время я могу попытаться расширить мои и без того чрезмерно объемные комментарии чуть позже.
кардинал

@gung, здесь есть связанная мета-нить, которая может вас заинтересовать.
Ричард Харди

16

Ошибка оценки представляет собой комбинацию (квадрата) смещения и дисперсии компонентов . Однако на практике мы хотим подогнать модель к определенной конечной выборке данных и минимизировать суммарную ошибку оценщика, оцененного на конкретной выборке данных, которую мы фактически имеем , а не нулевую ошибку в среднем по некоторой совокупности выборок (что у нас нет). Таким образом, мы хотим уменьшить как смещение, так и дисперсию, чтобы минимизировать ошибку, что часто означает пожертвование беспристрастностью для большего уменьшения компонента дисперсии. Это особенно верно при работе с небольшими наборами данных, где дисперсия, вероятно, будет высокой.

Я думаю, что разница в фокусе зависит от того, заинтересованы ли вы в свойствах процедуры или в получении наилучших результатов по конкретному образцу. Частые пользователи обычно находят первое, с чем легче иметь дело в этих рамках; Байесовцы часто больше внимания уделяют последним.


9

Я думаю, что есть несколько ответов, которые могут быть применимы:

  • Ридж-регрессия может обеспечить идентификацию, когда матрица предикторов не является полным рангом столбца.
  • Лассо и LAR могут использоваться, когда число предикторов больше, чем количество наблюдений (еще один вариант не единственного числа).
  • Lasso и LAR - это алгоритмы автоматического выбора переменных.

Я не уверен, что первый пункт относительно регрессии гребня - это действительно особенность; Я думаю, что я предпочел бы изменить свою модель, чтобы справиться с неидентификацией. Даже без изменения моделирования OLS предоставляет уникальные (и объективные / непротиворечивые) прогнозы результата в этом случае.

Я мог видеть, как второй пункт может быть полезным, но прямой выбор может также работать в случае, если число параметров превышает количество наблюдений, в то же время получая объективные / непротиворечивые оценки.

В последнем пункте, выбор вперед / назад, как примеры, легко автоматизировать.

Так что я до сих пор не вижу реальных преимуществ.


6
Некоторые замечания: ( 1 ) Оценки OLS не являются уникальными, когда матрица предикторов не имеет полного ранга. ( 2 ) Согласованность является асимптотическим понятием и поэтому требует последовательности оценок. Это означает, что вам нужно определить тип последовательности, которую вы рассматриваете, и тип роста, который вас интересует, имеет значение. ( 3 ) Существует несколько типов последовательности, и понимание различий между ними может быть иллюстративным. В статье Zhao & Yu (2006) есть хорошее обсуждение. ( 4 ) Беспристрастность переоценена.
кардинал

1
( 5 ) Первоначальной мотивацией регрессии гребня в Hoerl & Kennard (1970) было обращение с плохо обусловленными матрицами проектирования, что является «мягкой» формой дефицита ранга.
кардинал

1
@ cardinal, re. (1): Извините, я имел в виду прогнозы результата, а не оценки коэффициентов.
Чарли

1
Ах хорошо. Это лучше с вашей сноской в ​​вопросе.
кардинал

Вот ссылка на общедоступную версию Zhao & Yu (2006), как в комментарии выше.
Ричард Харди

4

Вот основной прикладной пример из биостатистики

Давайте предположим, что я изучаю возможные связи между наличием рака яичников и набором генов.

Моя зависимая переменная является двоичной (кодируется как ноль или 1). Мои независимые переменные кодируют данные из протеомной базы данных.

Как обычно во многих исследованиях генетики, мои данные намного шире, чем высокие. У меня 216 разных наблюдений, но около 4000 возможных предикторов.

Линейная регрессия прямо (система ужасно переопределена).

методы выбора функций действительно неосуществимы. С более чем 4000 различных независимых переменных все возможные методы подмножеств полностью исключены, и даже последовательный выбор признаков сомнителен.

Наилучшим вариантом, вероятно, является использование логистической регрессии с эластичной сеткой.

Я хочу сделать выбор объектов (определить, какие независимые переменные важны), поэтому регрессия гребня действительно не подходит.

Вполне возможно, что существует более 216 независимых переменных, которые оказывают значительное влияние, поэтому я, вероятно, не должен использовать лассо (Лассо не может определить больше предикторов, чем у вас есть наблюдения) ...

Введите упругую сеть ...


1
Не могли бы вы предоставить учебник, который касается таких ситуаций, как вы упомянули?
Qbik

0

Другая проблема, которую могут решить методы линейной регрессионной усадки, заключается в получении оценки низкого среднего (возможно несмещенного) среднего эффекта лечения (ATE) в многомерных исследованиях типа «случай-контроль» на данных наблюдений.

В частности, в случаях, когда 1) имеется большое количество переменных (что затрудняет выбор переменных для точного сопоставления), 2) сопоставление показателей предрасположенности не устраняет дисбаланс в образцах для обработки и контроля и 3) присутствует мультиколлинеарность, то есть Есть несколько методов, таких как адаптивное лассо (Zou, 2006), которые получают асимптотически несмещенные оценки. Было несколько работ, в которых обсуждается использование регрессии Лассо для причинного вывода и генерация доверительных интервалов для оценок коэффициентов (см. Следующий пост: Вывод после использования Лассо для выбора переменных ).

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.