Добавление предиктора линейной регрессии уменьшает R в квадрате

Мой набор данных ( ) имеет зависимую переменную (DV), пять независимых «базовых» переменных (P1, P2, P3, P4, P5) и одну независимую интересующую переменную (Q). $N \approx 10,000$

Я запустил линейные регрессии OLS для следующих двух моделей:

DV ~ 1 + P1 + P2 + P3 + P4 + P5
                                  -> R-squared = 0.125

DV ~ 1 + P1 + P2 + P3 + P4 + P5 + Q
                                  -> R-squared = 0.124

Т.е. добавление предиктора Q уменьшило величину дисперсии, объясненной в линейной модели. Насколько я понимаю, этого не должно быть .

Для ясности, это значения R-квадрата, а не скорректированные значения R-квадрата.

Я проверил значения R-квадрат с помощью Jasp и языка Python statsmodels .

Есть ли причина, по которой я мог видеть это явление? Возможно, что-то относящееся к методу OLS?

regression linear r-squared

— Cai
источник

числовые вопросы? Цифры довольно близки друг к другу ...

@ user2137591 Это то, о чем я думаю, но я не знаю, как это проверить. Абсолютная разница в значениях R-квадрат является 0,000513569, которая мала, но не , что мало.

— Цай

Я надеюсь, что вы знаете линейную алгебру: если является матрицей проектирования, описанной выше, не могли бы вы вычислить , где - транспонирование матрицы и является определитель матрицы?

X

$\mathbf{X}$

det X^{T} X

$\det\mathbf{X}^{T}\mathbf{X}$

T

$T$

det

$\det$

— Кларнетист

Отсутствующие значения автоматически удаляются?

— generic_user

0,000513569 - это очень небольшое число: изменение на 0,41 процента. Это очень возможно, численная проблема. Clarinetist пытается сказать, что, возможно, ваша матрица дизайна имеет плохой номер условия, а при инвертировании она численно нестабильна ...

Может быть, у вас пропущены значения Q, которые автоматически удаляются? Это повлияет на выборку, сделав две регрессии несопоставимыми.

— generic_user
источник