Существенное противоречие в линейной регрессии: значимый t-критерий для коэффициента против незначимой общей F-статистики

35

Я подгоняю модель множественной линейной регрессии между 4 категориальными переменными (по 4 уровня в каждой) и числовым выходом. Мой набор данных имеет 43 наблюдения.

Регрессия дает мне следующие из -test для каждого коэффициента наклона: . Таким образом, коэффициент для 4-го предиктора является значимым при уровне достоверности . $p$ $t$ $.15, .67, .27, .02$ $\alpha = .05$

С другой стороны, регрессия дает мне значение от общего теста нулевой гипотезы о том, что все мои коэффициенты наклона равны нулю. Для моего набора данных это значение равно . $p$ $F$ $p$ $.11$

Мой вопрос: как мне интерпретировать эти результаты? Какое значение следует использовать и почему? Значительно ли отличается коэффициент для 4-й переменной от при доверительном уровне ? $p$ $0$ $\alpha = .05$

Я видел , связанный с этим вопрос, и статистики в регрессию , но была противоположная ситуация: высокая -TEST -значения и низкий -test -значение. Честно говоря, я не совсем понимаю, зачем нам нужен тест в дополнение к тесту, чтобы увидеть, значительно ли отличаются коэффициенты линейной регрессии от нуля. $F$ $t$ $t$ $p$ $F$ $p$ $F$ $t$

— Лео
источник

2

Если у вас есть 4 категориальные переменные по 4 уровня в каждой, у вас должно быть 3 * 4 = 12 коэффициентов для ваших независимых переменных (плюс перехват) ...

— boscovich

@andrea: я решил рассматривать их как числовые переменные.

— Лев

4

0.02 едва ли значимо (особенно если учесть тот факт, что у вас всего пять тестов), а 0.11 не очень высоко. Щедрая интерпретация заключалась бы в том, что при немного большей мощности общий F-тест также был бы значительным (и, возможно, также первым коэффициентом). Более консервативная интерпретация заключается в том, что вам не следует доверять каким-либо из этих результатов (включая коэффициент со значением 0,02 р). В любом случае, вы не должны читать слишком много разницы между .02 и .11.

— Гала

3

Для обсуждения противоположного случая вы также можете увидеть здесь: как регрессия может быть значимой, но все предикторы не являются значимыми , в дополнение к вопросу, связанному выше.

— gung - Восстановить Монику

37

Я не уверен, что здесь происходит мультиколлинеарность. Конечно, это может быть, но из предоставленной информации я не могу сделать вывод, и я не хочу начинать с этого. Мое первое предположение состоит в том, что это может быть проблемой множественных сравнений. То есть, если вы запустите достаточно тестов, что-то появится, даже если там ничего нет.

Одна из проблем, которую я обсуждаю, заключается в том, что проблема множественных сравнений всегда обсуждается с точки зрения изучения множества парных сравнений, например, выполнения t-тестов для каждой уникальной пары уровней. (Для юмористического подхода к множественным сравнениям смотрите здесь .) У людей создается впечатление, что это единственное место, где проявляется эта проблема. Но это просто неправда - проблема множественных сравнений проявляется везде, Например, если вы запускаете регрессию с 4 объясняющими переменными, существуют те же проблемы. В хорошо спроектированном эксперименте IV могут быть ортогональными, но люди обычно беспокоятся об использовании поправок Бонферрони на множествах априорных, ортогональных контрастов и не думают дважды о факторных ANOVA. На мой взгляд, это противоречиво.

Глобальный F-тест - это то, что называется «одновременным» тестом. Это проверяет, все ли ваши предикторы не связаны с переменной ответа. Одновременный тест обеспечивает некоторую защиту от проблемы множественных сравнений, не прибегая к дорогостоящему маршруту Бонферрони. К сожалению, моя интерпретация того, что вы сообщаете, заключается в том, что у вас нулевая находка.

Несколько вещей смягчают эту интерпретацию. Во-первых, имея всего 43 данных, вы почти наверняка не обладаете большой мощностью. Вполне возможно, что есть реальный эффект, но вы не можете решить его без дополнительных данных. Во-вторых, как и @andrea, и @Dimitriy, я беспокоюсь о целесообразности обработки четырехуровневых категориальных переменных как числовых. Это может быть неуместно и может иметь любое количество эффектов, в том числе снижение вашей способности обнаруживать то, что на самом деле там. Наконец, я не уверен, что тестирование значимости так важно, как полагают люди. $p$ из $.11$ является своего рода минимума; там действительно что-то происходит? может быть! кто знает? - в .05 нет «яркой линии», которая отделяет реальные эффекты от простого внешнего вида.

— Gung - Восстановить Монику
источник

24

Я хотел бы предположить, что это явление (незначительного общего теста, несмотря на значительную индивидуальную переменную) можно понимать как некий совокупный «маскирующий эффект» и что, хотя оно предположительно может возникнуть из мультиколлинеарных объясняющих переменных, оно не должно это вообще. Также оказывается, что это происходит не из-за множественных корректировок сравнения. Таким образом, этот ответ добавляет некоторые уточнения к уже появившимся ответам, которые, наоборот, предполагают, что виновниками являются либо мультиколлинеарность, либо множественные сравнения.

Чтобы установить правдоподобие этих утверждений, давайте сгенерируем набор совершенно ортогональных переменных - как можно более неколлинеарных - и зависимой переменной, которая явно определяется только первым из объяснений (плюс большое количество случайных ошибок независимо от всего остального). В Rэто можно сделать (воспроизводимым, если вы хотите экспериментировать) , как

set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)

Неважно, что объясняющие переменные являются двоичными; важна их ортогональность, которую мы можем проверить, чтобы убедиться, что код работает должным образом, что можно сделать, проверив их корреляции. Действительно, корреляционная матрица интересна : предполагаемые малые коэффициенты yимеют мало общего с какой-либо из переменных, кроме первой (которая является расчетной), а недиагональные нули подтверждают ортогональность объясняющих переменных:

> cor(cbind(x,y))
     Var1  Var2  Var3   Var4  Var5      y
Var1 1.00 0.000 0.000  0.000  0.00  0.486
Var2 0.00 1.000 0.000  0.000  0.00  0.088
Var3 0.00 0.000 1.000  0.000  0.00  0.044
Var4 0.00 0.000 0.000  1.000  0.00 -0.014
Var5 0.00 0.000 0.000  0.000  1.00 -0.167
y    0.49 0.088 0.044 -0.014 -0.17  1.000

Давайте запустим серию регрессий , используя только первую переменную, затем первые две и так далее. Для краткости и удобства сравнения в каждом из них я показываю только строку для первой переменной и общий F-критерий:

>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))

#              Estimate Std. Error t value Pr(>|t|)   
1  x[, 1:i]       0.898      0.294    3.05   0.0048 **
F-statistic: 9.29 on 1 and 30 DF,  p-value: 0.00478 

2  x[, 1:i]Var1    0.898      0.298    3.01   0.0053 **
F-statistic: 4.68 on 2 and 29 DF,  p-value: 0.0173 

3  x[, 1:i]Var1   0.8975     0.3029    2.96   0.0062 **
F-statistic: 3.05 on 3 and 28 DF,  p-value: 0.0451 

4  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0072 **
F-statistic: 2.21 on 4 and 27 DF,  p-value: 0.095 

5  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0073 **
F-statistic: 1.96 on 5 and 26 DF,  p-value: 0.118

Посмотрите, как (а) значение первой переменной практически не изменяется, (а ') первая переменная остается значимой (р <0,05) даже при корректировке нескольких сравнений ( например , примените Бонферрони, умножив номинальное значение р на (число объяснительных переменных), (б) коэффициент первой переменной почти не изменяется, но (в) общая значимость растет в геометрической прогрессии, быстро увеличиваясь до незначительного уровня.

Я интерпретирую это как демонстрацию того, что включение объясняющих переменных, которые в значительной степени не зависят от зависимой переменной, может «маскировать» общее значение р регрессии. Когда новые переменные ортогональны существующим и зависимой переменной, они не изменят отдельные p-значения. (Небольшие изменения, наблюдаемые здесь, связаны с тем, что добавленная случайная ошибка y, случайно, слегка коррелирует со всеми другими переменными.) Из этого следует извлечь урок: скупость полезна : использование как можно меньшего количества переменных может усилить значение результаты.

Я не говорю, что это обязательно происходит с набором данных в вопросе, о котором мало что было раскрыто. Но знание того, что этот маскирующий эффект может произойти, должно послужить основой для нашей интерпретации результатов, а также для наших стратегий выбора переменных и построения моделей.

— Whuber
источник

+1, я согласен с этим анализом. FWIW, это объяснение, на которое я намекал (возможно, не очень хорошо) в моей дискуссии о силе в моем ответе на другой вопрос . У меня есть 1 вопрос о вашей версии здесь, почему вы используете 32 в качестве среднего значения вашего термина ошибки? Это опечатка, или это так важно?

— gung - Восстановить Монику

@ gung Где ты видишь 32? Если вы имеете в виду rnorm(2^p, sd=2), обратите внимание, что первый аргумент - это число терминов, а не среднее. Среднее значение по умолчанию равно нулю и поэтому не было явно указано.

— whuber

rnorm()

N (μ, σ)

$\mathcal N(\mu, \sigma)$

@ Gung Я благодарен за возможность уточнить код и, следовательно, отредактировал оскорбительную строку.

— whuber

11

Это часто случается, когда у вас высокая степень коллинеарности среди объясняющих переменных. ANOVA F - это совместный тест, в котором все регрессоры являются совместно неинформативными. Когда ваши X содержат аналогичную информацию, модель не может приписать объяснительную силу тому или иному регрессору, но их комбинация может объяснить большую часть различий в переменной отклика.

$x_{1}$ $y$

— Димитрий Васильевич Мастеров
источник

Если коллинеарность является проблемой, то у вас будут высокие стандартные ошибки и, возможно, невероятно большие коэффициенты, возможно, даже с неправильными знаками. Чтобы убедиться, что это именно то, что происходит, рассчитайте факторы инфляции дисперсии (VIFs) после регрессии. Правильное практическое правило заключается в том, что коллинеарность является проблемой, если наибольшее значение VIF больше 10. Если это так, у вас действительно есть два варианта. Один из них - переопределить модель, чтобы уменьшить почти линейную зависимость, отбрасывая некоторые из ваших переменных. Второе - получить более крупный и / или лучший (менее однородный) образец.

— Дмитрий Владимирович Мастеров

1

(+1) Это объяснение хорошее, но нет необходимости приписывать явление мультиколлинеарности: ключевое различие между совместно информативным и индивидуально информативным. Включение дополнительных некоррелированных регрессоров (что позволяет избежать мультиколлинеарности) понижает первое, оставляя второе без изменений.

— whuber