Большинство моделей множественной регрессии содержат постоянный член (т. Е. Перехват), поскольку это гарантирует, что модель будет беспристрастной, т. Е. Среднее значение остатков будет точно равно нулю. (Коэффициенты в регрессионной модели оцениваются методом наименьших квадратов, т. Е. Сводится к минимуму среднеквадратическая ошибка. Теперь среднеквадратичная ошибка равна дисперсии ошибок плюс квадрат их среднего значения: это математическая идентичность. Изменение значение константы в модели изменяет среднее значение ошибок, но не влияет на дисперсию, поэтому, если сумма квадратов ошибок должна быть минимизирована, константа должна быть выбрана так, чтобы среднее значение ошибок было равно нулю. )
В простой регрессионной модели константа представляет Y-точку пересечения линии регрессии в нестандартной форме. В модели множественной регрессии константа представляет значение, которое было бы предсказано для зависимой переменной, если бы все независимые переменные были одновременно равны нулю - ситуация, которая не может быть физически или экономически значимой. Если вас не особенно интересует, что произойдет, если все независимые переменные будут одновременно равны нулю, тогда вы обычно оставляете константу в модели независимо от ее статистической значимости. В дополнение к тому, что ошибки выборки несмещены, наличие константы позволяет линии регрессии «искать свой собственный уровень» и обеспечивать наилучшее соответствие данным, которые могут быть только локально линейными.
Однако в редких случаях вы можете исключить постоянную из модели. Это опция подбора модели в процедуре регрессии в любом программном пакете, и ее иногда называют регрессией через источник, или для краткости RTO. Обычно это будет сделано только в том случае, если:
- можно представить, что все независимые переменные принимают значение ноль одновременно, и вы чувствуете, что в этом случае логически следует, что зависимая переменная также будет равна нулю; или еще
- константа избыточна с набором независимых переменных, которые вы хотите использовать.
Примером случая (1) может служить модель, в которой все переменные - зависимые и независимые - представляют первые различия других временных рядов. Если вы регрессируете первое различие Y на первое различие X, вы прямо прогнозируете изменения в Y как линейную функцию изменений в X без привязки к текущим уровням переменных. В этом случае может быть разумным (хотя и не обязательно) предполагать, что Y должен быть неизменным в среднем всякий раз, когда X не изменяется, то есть, что Y не должен иметь тенденцию к росту или понижению при отсутствии каких-либо изменений в уровень Х.
Примером случая (2) может быть ситуация, в которой вы хотите использовать полный набор переменных сезонных индикаторов - например, вы используете квартальные данные и хотите включить переменные Q1, Q2, Q3 и Q4, представляющие аддитив сезонные эффекты. Таким образом, Q1 может выглядеть как 1 0 0 0 1 0 0 0 ..., Q2 будет выглядеть как 0 1 0 0 0 1 0 0 ... и так далее. Вы не можете использовать все четыре из них и константу в одной и той же модели, поскольку Q1 + Q2 + Q3 + Q4 = 1 1 1 1 1 1 1 1. , , , , что совпадает с постоянным членом. То есть пять переменных Q1, Q2, Q3, Q4 и CONSTANT не являются линейно независимыми: любая из них может быть выражена как линейная комбинация остальных четырех. Технической предпосылкой для подбора модели линейной регрессии является то, что независимые переменные должны быть линейно независимыми; в противном случае коэффициенты наименьших квадратов не могут быть определены однозначно,
Предупреждение: R-квадрат и F-статистика не имеют того же значения в модели RTO, как в обычной регрессионной модели, и они не рассчитываются одинаково всеми программами. Смотрите эту статью для некоторых предостережений. Вы не должны пытаться сравнивать R-квадрат между моделями, которые включают и не включают постоянный член, хотя это нормально для сравнения стандартной ошибки регрессии.
Обратите внимание, что термин «независимый» используется (по крайней мере) тремя различными способами на жаргоне регрессии: любая отдельная переменная может называться независимой переменной, если она используется в качестве предиктора, а не предиката. Группа переменных является линейно независимой, если ни одна из них не может быть выражена в точности как линейная комбинация других. Пара переменных называется статистически независимой, если они не только линейно независимы, но и совершенно неинформативны по отношению друг к другу. В регрессионной модели вы хотите, чтобы ваша зависимая переменная была статистически зависимой от независимых переменных, которые должны быть линейно (но не обязательно статистически) независимы между собой.