«Значимая переменная», которая не улучшает прогнозирование вне выборки - как интерпретировать?


10

У меня есть вопрос, который, я думаю, будет довольно простым для многих пользователей.

Я использую модели линейной регрессии для (i) исследования взаимосвязи нескольких объясняющих переменных и моей переменной отклика и (ii) прогнозирования моей переменной отклика с использованием объяснительных переменных.

Одна конкретная объясняющая переменная X, по-видимому, существенно влияет на мою переменную ответа. Чтобы проверить добавленную стоимость этой объясняющей переменной X для целей внеплановых предсказаний моей переменной ответа, я использовал две модели: модель (а), которая использовала все пояснительные переменные, и модель (б), которая использовала все переменные за исключением переменной X. Для обеих моделей я сообщаю исключительно о производительности вне выборки. Похоже, что обе модели работают почти одинаково хорошо. Другими словами, добавление пояснительной переменной X не улучшает прогнозирование вне выборки. Обратите внимание, что я также использовал модель (а), то есть модель со всеми объясняющими переменными, чтобы найти, что объясняющая переменная X существенно влияет на мою переменную ответа.

Мой вопрос сейчас: как интерпретировать эту находку? Простой вывод заключается в том, что, хотя переменная X, по-видимому, значительно влияет на мою переменную ответа с использованием логических моделей, она не улучшает прогнозирование вне выборки. Однако у меня возникли проблемы с дальнейшим объяснением этого вывода. Как это может быть возможно и каковы некоторые объяснения этого открытия?

Заранее спасибо!

Дополнительная информация: с «значительным влиянием» я имею в виду, что 0 не входит в самый высокий 95% -й апостериорный интервал плотности оценки параметров (я использую байесовский подход). В частых терминах это примерно соответствует р-значению ниже 0,05. Я использую только диффузные (неинформативные) априоры для всех параметров моей модели. Мои данные имеют продольную структуру и содержат в общей сложности около 7000 наблюдений. Для прогнозов вне выборки я использовал 90% данных, чтобы соответствовать моим моделям, и 10% данных, чтобы оценить модели, используя множественные репликации. То есть я несколько раз проводил тест-разделение на поезда и в итоге сообщал о средних показателях производительности.


2
Поскольку вы используете байесовский подход, ваши результаты зависят как от ваших предыдущих, так и от данных. Поскольку зависимость от предыдущего уменьшается с увеличением количества данных и увеличивается в той мере, в которой данные и предыдущий расходятся, было бы полезно предоставить вам информацию как о предыдущем распределении, объеме данных, так и о том, насколько точно эти данные соответствуют до предварительного распространения.
whuber

1
@whuber Я забыл упомянуть, что я использую только диффузные (неинформативные) приоры. Поэтому я не чувствую, что моя предыдущая спецификация имеет какое-либо отношение к моим выводам. Я почти уверен, что подходящие модели линейной регрессии для часто встречающихся людей приведут к точно таким же результатам.
dubvice

Спасибо - это помогает исключить несколько возможных объяснений.
whuber

1
Подгоняете ли вы модели к имеющимся данным или используете модели, которые соответствуют вашим исходным данным? В любом случае одна из возможных проблем заключается в том, что вы делаете ошибку типа II в сохраненных данных; возможно, переменная является релевантной, но вы изначально были недостаточно сильны (в этом случае вы, вероятно, переоцениваете эффект, который может ухудшить предсказания). Или переменная не имеет значения, и вы допустили ошибку типа I. Есть много причин, по которым этот тип вещей может случиться.
парень

1
Я использовал несколько метрик: RSME, MAE и AUC (я также пытаюсь предсказать, находится ли моя зависимая переменная, которая является непрерывной, ниже определенного порога).
Дабвице

Ответы:


3

Когда конкретный предиктор статистически значим, на самом деле это не означает, что он также значительно улучшает прогнозирующую эффективность модели. Прогнозируемая эффективность больше связана с величиной эффекта. В качестве примера, нижеприведенная функция имитирует данные из модели линейной регрессии с двумя предикторами x1и x2, и подходит для двух моделей, одна с обоими x1и x2, и одна с x1одним. В функции вы можете изменить размер эффекта для x2. Функция сообщает доверительные интервалы для коэффициентов x1и x2и значения двух моделей в качестве показателя прогнозирующей эффективности.р2

Функция:

sim_ES <- function (effect_size = 1, sd = 2, n = 200) {
    # simulate some data
    DF <- data.frame(x1 = runif(n, -3, 3), x2 = runif(n, -3, 3))
    DF$y <- 2 + 5 * DF$x1 + (effect_size * sd) * DF$x2 + rnorm(n, sd = sd)

    # fit the models with and without x2
    fm1 <- lm(y ~ x1 + x2, data = DF)
    fm2 <- lm(y ~ x1, data = DF)

    # results
    list("95% CIs" = confint(fm1),
         "R2_X1_X2" = summary(fm1)$r.squared,
         "R2_only_X1" = summary(fm2)$r.squared)
}

Например, для значений по умолчанию мы получаем,

$`95% CIs`
               2.5 %   97.5 %
(Intercept) 1.769235 2.349051
x1          4.857439 5.196503
x2          1.759917 2.094877

$R2_X1_X2
[1] 0.9512757

$R2_only_X1
[1] 0.8238826

Так x2значительно, и не включая его в модели имеет большое влияние на .р2

Но если мы установим размер эффекта на 0,3, мы получим:

> sim_ES(effect_size = 0.3)
$`95% CIs`
                2.5 %    97.5 %
(Intercept) 1.9888073 2.5563233
x1          4.9383698 5.2547929
x2          0.3512024 0.6717464

$R2_X1_X2
[1] 0.9542341

$R2_only_X1
[1] 0.9450327

Коэффициент все еще значительный, но улучшение очень мало.р2


Неопределенная дихотомия между статистической значимостью и прогностической эффективностью - проклятие моей аналитической жизни во многих отношениях. (+1 - и вообще добро пожаловать в CV Prof.!)
usεr11852

-1

Это довольно нормальная вещь для множественной регрессии. Наиболее распространенная причина заключается в том, что ваши предикторы связаны друг с другом. Другими словами, вы можете вывести X из значений других предикторов. Поэтому, хотя это полезно для предсказаний, если это единственный предиктор, который у вас есть, если у вас есть все другие предикторы, он не предоставляет много дополнительной информации. Вы можете проверить, так ли это, регрессируя X на других предикторах. Я также хотел бы сослаться на главу о линейной регрессии в бесплатном онлайн-учебнике «Элементы статистического обучения».


1
Похоже, вы описываете незначительную объясняющую переменную, а не рассматриваете конкретные обстоятельства, описанные в вопросе.
whuber

Я описываю объясняющую переменную, которая в значительной степени связана с самим ответом (то есть в простой регрессии), что, как я полагаю, означает, что вопрос означает «X, по-видимому, существенно влияет на мою переменную ответа».
Дензилое

Но в этом случае я бы не обнаружил, что моя объясняющая переменная X существенно влияет на мою переменную ответа, верно? Возможно, я изначально не разъяснил в своем вопросе, но я использовал модель со всеми объясняющими переменными, чтобы найти, что объясняющая переменная X оказывает существенное влияние на мою переменную ответа.
Дубвице

3
Икс

1
Да, да, вы правильно поняли. Это то, что я имею в виду. Надеюсь, я прояснил это достаточно хорошо в своем вопросе.
dubvice
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.