Когда исключить термин из регрессионной модели?


20

Может кто-нибудь посоветовать, если имеет смысл следующее:

Я имею дело с обычной линейной моделью с 4 предикторами. Я в раздумье, отбросить ли наименее значимый термин. Это значение чуть более 0,05. Я высказался за то, чтобы привести его в соответствие с этим: умножение оценки этого термина на (например) межквартильный диапазон выборочных данных для этой переменной дает некоторый смысл клиническому эффекту, который сохранение этого термина оказывает на общую модель , Поскольку это число очень низкое и приблизительно равно типичному диапазону значений внутри дня, который может принимать переменная при измерении в клинических условиях, я считаю его не клинически значимым, и поэтому его можно было бы опустить, чтобы получить более скупую модель, даже хотя падение его немного уменьшает скорректированный R 2 .pR2


1
почему вы ищете более parsimonius модель?
Майкл Бишоп

3
Разве скупость не хороша сама по себе? На мой взгляд, модель с переменными, которые в клиническом смысле мало или вообще не дают объяснительной силы, хуже, чем модель меньшего размера без этих переменных, даже если эти переменные являются значимыми в статистическом смысле
P Sellaz

Я решил написать ответ: stats.stackexchange.com/questions/17624/… . Короче говоря, нет, я не думаю, что скупость сама по себе хорошая вещь. Иногда это полезно по определенным причинам.
Майкл Бишоп

1
Я согласен с Майклом. Лучше всего включать переменные без явной объяснительной способности, если им был дан шанс быть «значимым»; вы уже потратили эти степени свободы.
Фрэнк Харрелл

Имейте в виду, что предикторы, которые не являются значимыми регрессорами, могут все же вносить ненулевые значения в объясненную дисперсию в случае коррелированных регрессоров - влияя на другие значимые регрессоры. Особенно с четырьмя предикторами, если регрессоры коррелируют, я бы поспорил в пользу сохранения не значимого в модели.
Торонон

Ответы:


18

Я никогда не понимал желание скупости. Стремление к скупости уничтожает все аспекты статистического вывода (смещение коэффициентов регрессии, стандартные ошибки, доверительные интервалы, P-значения). Хорошая причина для сохранения переменных состоит в том, что это сохраняет точность доверительных интервалов и других величин. Подумайте об этом следующим образом: были разработаны только две несмещенные оценки остаточной дисперсии в обычной множественной регрессии: (1) оценка из предварительно определенной (большой) модели и (2) оценка из сокращенной модели, заменяющей обобщенные степени свободы (GDF) для явных (уменьшенных) регрессионных степеней свободы. GDF будет намного ближе к числу параметров-кандидатов, чем к числу конечных «значимых» параметров.

Вот еще один способ думать об этом. Предположим, что вы делали ANOVA, чтобы сравнить 5 процедур и получить F-тест 4 df. Затем по какой-то причине вы смотрите на парные различия между обработками с помощью t-тестов и решили объединить или удалить некоторые из обработок (это то же самое, что делать пошаговый отбор с использованием P, AIC, BIC, Cp для 4 фиктивных переменных). Результирующий F-тест с 1, 2 или 3 df будет иметь завышенную ошибку типа I. Оригинальный F-тест с 4 df содержал идеальную настройку кратности.


3
+1 Скупость - это то, что часто имеет смысл только в очень специфических контекстах. Нет смысла играть в игру предвзятость против точности, если у вас достаточно точности, чтобы сделать то и другое.
Fomite

2
+1 за отличный ответ. Но что, если у вас есть мультиколлинеарность, а удаление переменной уменьшает ее? (Это не так в первоначальном вопросе, но часто в других данных). Разве полученная модель часто не превосходит все виды (уменьшить дисперсию оценок, признаки коэффициентов с большей вероятностью отражают основную теорию и т. Д.)? Если вы все еще используете правильные (оригинальная модель) степени свободы.
Питер Эллис

4
Еще лучше включить обе переменные. Единственная цена, которую вы платите, - это увеличенная стандартная ошибка в оценке эффектов одной переменной, скорректированных для другой. Совместные тесты двух коллинеарных переменных являются очень мощными, так как тогда они объединяют силы, а не конкурируют друг с другом. Также, если вы хотите удалить переменную, данные не в состоянии указать вам, какую из них удалить.
Фрэнк Харрелл

17

Все эти ответы о выборе переменных предполагают, что стоимость наблюдения переменных равна 0.

И это не правда.

В то время как проблема выбора переменных для данной модели может включать или не включать выбор, последствия для будущего поведения СЛЕДУЕТ включать выбор.

Рассмотрим проблему прогнозирования, кто из линейного специалиста колледжа будет лучше всех в НФЛ. Вы разведчик. Вы должны учитывать, какие качества нынешних линейных игроков в НФЛ наиболее предсказуемы в их успехе. Вы измеряете 500 количеств и начинаете задачу выбора количеств, которые будут необходимы в будущем.

Что вы должны сделать? Должны ли вы сохранить все 500? Должны ли быть устранены некоторые (астрологический знак, день недели рождения)?

Это важный вопрос, а не академический. Наблюдение за данными сопряжено с большими затратами, и структура экономической эффективности предполагает, что некоторые переменные НЕ ДОЛЖНЫ наблюдаться в будущем, поскольку их значение является низким.


4
+1: важный и интересный момент. Это также показывает, что вопрос является неполным, потому что он не указывает на цель модели. (Затраты были бы менее значимыми для научной модели, которая стремится построить объяснительную теорию, но вышли бы на передний план в прогностической модели, предназначенной для многократного использования.)
whuber

6

Есть как минимум две другие возможные причины для хранения переменной: 1) Это влияет на параметры для ДРУГИХ переменных. 2) тот факт, что он маленький, клинически интересен сам по себе

Чтобы увидеть примерно 1, вы можете посмотреть на прогнозируемые значения для каждого человека из модели с и без переменной в модели. Я предлагаю составить диаграмму рассеяния этих двух наборов значений. Если нет больших различий, то это аргумент против этой причины

Для 2 подумайте, почему у вас была эта переменная в списке возможных переменных. Это основано на теории? Другие исследования нашли большой эффект?


Существует очень мало коллинеарности, поэтому удаление этой переменной мало что меняет для остальных. Это интересный момент о том, что он клинически интересен, если бы он был маленьким. Данные поступают из поискового опроса, где, по крайней мере, на данном этапе нет никаких оснований ожидать, что какая-то одна переменная будет более значимой, чем любая другая. Однако в этой переменной есть внутрисуточные колебания, поэтому, если посмотреть на эффект, размер которого был бы схожим с этим колебанием, он не кажется мне клинически значимым.
P Sellaz

Хорошо, тогда это звучит как хороший кандидат на удаление.
Питер Флом - Восстановить Монику

@P Sellaz - если «данные получены в результате поискового опроса», значит ли это, что участники выбрали сами? Я считаю , @Frank Харрелл в комментарии что - то будет считаться, но забота о строгой точности р-значений, доверительных интервалов и т.д. становится спорным , если образец был сам отбор.
rolando2

Я думаю, что это становится спорным, только если вы их не используете.
Фрэнк Харрелл

@FrankHarrel - пожалуйста, уточните: "они" =?
rolando2

6

Наиболее распространенный совет в эти дни - получить AIC двух моделей и взять модель с более низким AIC. Итак, если ваша полная модель имеет AIC -20, а модель без самого слабого предиктора имеет AIC> -20, то вы сохраняете полную модель. Некоторые могут возразить, что если разница <3, вы сохраняете более простую. Я предпочитаю совет, что вы можете использовать BIC, чтобы разорвать «связи», когда AIC находятся в пределах 3 друг от друга.

Если вы используете R , то команду , чтобы получить АИК ... AIC.

У меня здесь есть учебник по моделированию с начала 90-х годов, в котором предлагается отбросить все свои предикторы, которые не являются значимыми. Однако на самом деле это означает, что вы будете отбрасываться независимо от сложности, которую предиктор добавляет или вычитает из модели. Это также только для ANOVA, где значимость объясняется изменчивостью, а не величиной наклона в свете того, что объясняли другие вещи. Более современный совет использования AIC учитывает эти факторы. Существует множество причин, по которым незначительный предиктор должен быть включен, даже если он не имеет существенного значения. Например, могут быть проблемы корреляции с другими предикторами, чтобы он мог быть относительно простым предиктором. Если вы хотите получить самый простой совет, используйте AIC и используйте BIC для разрыва связей и используйте разницу 3 в качестве окна равенства.


Меньше, лучше в представлении R, да?
Аарон - Восстановить Монику

Спасибо за ответ. Я обнаружил, что разница в AIC между двумя моделями составляет всего 2.
P Sellaz

Меньшая модель имеет немного больший AIC и BIC AIC: большой-маленький AIC = -2 BIC: большой-маленький BIC- 7,8
P Sellaz

Аарон .. упс ... ниже, фиксированный ...
Джон

1
Просто, чтобы прояснить что-то, этот дополнительный термин является просто еще одним ковариатом, и коллинеарность здесь очень мала.
P Sellaz

4

Для чего вы используете эту модель? Является ли экономия важной целью?

В некоторых ситуациях предпочтение отдается скупым моделям, но я бы не сказал, что скупость - хорошая вещь сама по себе. Скупые модели могут быть поняты и переданы легче, а скупость может помочь избежать чрезмерного соответствия, но часто эти проблемы не являются серьезной проблемой или могут быть решены по-другому.

Подход с противоположной стороны, в том числе использование дополнительного члена в уравнении регрессии, имеет некоторые преимущества даже в ситуациях, когда сам дополнительный термин не представляет интереса и он не улучшает модель в значительной степени ... Вы можете не думать, что это является важной переменной для контроля, но другие могут. Конечно, существуют и другие очень важные существенные причины для исключения переменной, например, это может быть вызвано результатом.


3

Из вашей формулировки это звучит так, как будто вы склонны отбросить последний предиктор, потому что его прогностическое значение низкое; существенное изменение этого предиктора не будет означать существенного изменения переменной отклика. Если это так, то мне нравится этот критерий для включения / удаления предиктора. Это более основано на практической реальности, чем AIC или BIC, и более объяснимо для вашей аудитории для этого исследования.


Да, именно это я и имел в виду.
P Sellaz
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.