Добавление предиктора линейной регрессии уменьшает R в квадрате


10

Мой набор данных ( ) имеет зависимую переменную (DV), пять независимых «базовых» переменных (P1, P2, P3, P4, P5) и одну независимую интересующую переменную (Q).N10,000

Я запустил линейные регрессии OLS для следующих двух моделей:

DV ~ 1 + P1 + P2 + P3 + P4 + P5
                                  -> R-squared = 0.125

DV ~ 1 + P1 + P2 + P3 + P4 + P5 + Q
                                  -> R-squared = 0.124

Т.е. добавление предиктора Q уменьшило величину дисперсии, объясненной в линейной модели. Насколько я понимаю, этого не должно быть .

Для ясности, это значения R-квадрата, а не скорректированные значения R-квадрата.

Я проверил значения R-квадрат с помощью Jasp и языка Python statsmodels .

Есть ли причина, по которой я мог видеть это явление? Возможно, что-то относящееся к методу OLS?


1
числовые вопросы? Цифры довольно близки друг к другу ...

@ user2137591 Это то, о чем я думаю, но я не знаю, как это проверить. Абсолютная разница в значениях R-квадрат является 0,000513569, которая мала, но не , что мало.
Цай

1
Я надеюсь, что вы знаете линейную алгебру: если является матрицей проектирования, описанной выше, не могли бы вы вычислить , где - транспонирование матрицы и является определитель матрицы? дет X T X T детИксйеИксTИксTйе
Кларнетист

8
Отсутствующие значения автоматически удаляются?
generic_user

1
0,000513569 - это очень небольшое число: изменение на 0,41 процента. Это очень возможно, численная проблема. Clarinetist пытается сказать, что, возможно, ваша матрица дизайна имеет плохой номер условия, а при инвертировании она численно нестабильна ...

Ответы:


25

Может быть, у вас пропущены значения Q, которые автоматически удаляются? Это повлияет на выборку, сделав две регрессии несопоставимыми.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.