Вы правы в том, что эти говорят только о том, значительно ли среднее значение каждого уровня отличается от среднего эталонного уровня. Поэтому они говорят только о парных различиях между уровнями. Проверка значимости категорического предиктора в целом эквивалентна проверке наличия какой-либо неоднородности в средствах уровней предиктора. Когда в модели нет других предикторов, это классическая проблема ANOVA .p
Когда в модели есть другие предикторы. у вас есть два варианта проверки значимости категориального предиктора:
(1) Тест отношения правдоподобия: Предположим, что исход , количественные предикторы X I 1 , . , , , X i p и категориальный предиктор C i с k уровнями. Модель без категориального предиктораYiXi1,...,XipCik
Yi=β0+β1Xi1+...+βpXip+εi
В R
вас может соответствовать этой модели с lm()
командой и извлечь логарифмическое правдоподобие с logLik
командой. Назовите это лог-вероятность . Далее вы можете согласовать модель с категориальным предиктором:L0
Yi=β0+β1Xi1+...+βpXip+∑j=1k−1αjBj+εi
где - фиктивная переменная, равная 1, если D i = j, и 0 в противном случае. К «го уровня является опорный уровень, поэтому есть только к - 1 слагаемых в сумме. будет автоматически делать это фиктивное кодирование для вас, если вы передадите категориальную переменную . Вы можете подобрать эту модель аналогичным образом и извлечь вероятность бревна, как указано выше. Назовите это лог-правдоподобие L 1 . Тогда, при нулевой гипотезе, что D i не имеет никакого эффекта,Bj1Di=j0kk−1R
lm()
L1Di
λ=2(L1−L0)
имеет распределение с k - 1χ2k−1 степенями свободы. Таким образом, вы можете вычислить значение, используя in для проверки значимости.p1-pchisq(2*(L1-L0),df=k-1)
R
(2) тест:F не вдаваясь в детали (которые похожи на LRT, за исключением того, что используются суммы квадратов, а не логарифмические вероятности), я объясню, как это сделать R
. Если вы используете "полную" модель (то есть модель со всеми предикторами, включая категориальный предиктор) при R
использовании lm()
команды (вызовите это g1
) и модель без категориального предиктора (вызовите это g0
), то anova(g1,g0)
эта гипотеза будет проверена для и вам того же.
Примечание: оба подхода, которые я упомянул здесь, требуют нормальности ошибок. Кроме того, тест отношения правдоподобия является очень общим инструментом, используемым для вложенных сравнений, поэтому я упоминаю об этом здесь (и почему это происходит со мной в первую очередь), хотя тест более знаком при сравнении моделей линейной регрессии.F
x3
для генерацииy
s, поэтому он должен быть включен в модель, и значение согласуется с этим выводом.