Множественная линейная регрессия для проверки гипотез

15

Я знаком с использованием нескольких линейных регрессий для создания моделей различных переменных. Однако мне было любопытно, используются ли когда-либо регрессионные тесты для проверки каких-либо базовых гипотез. Если да, то как будут выглядеть эти сценарии / гипотезы?

regression hypothesis-testing multiple-regression

— cryptic_star
источник

1

Можете ли вы объяснить, что вы имеете в виду? Очень часто проверяют, отличается ли параметр наклона для переменной от нуля. Я бы назвал это «проверкой гипотез». Вы не знаете об этом или имеете в виду что-то другое? Что представляет собой сценарий для ваших целей?

— gung - Восстановить Монику

Я не знаю об этом. Я также был не уверен, используется ли регрессионный анализ для проверки гипотез любого другого типа (возможно, о значимости одной переменной над другой и т. Д.).

— cryptic_star

25

Вот простой пример. Я не знаю, знакомы ли вы с R, но, надеюсь, код достаточно понятен.

set.seed(9)        # this makes the example reproducible
N = 36
    # the following generates 3 variables:
x1 =     rep(seq(from=11, to=13),           each=12)
x2 = rep(rep(seq(from=90, to=150, by=20),   each=3 ), times=3)
x3 =     rep(seq(from=6,  to=18,  by=6 ),  times=12)
cbind(x1, x2, x3)[1:7,]    # 1st 7 cases, just to see the pattern
      x1  x2 x3
 [1,] 11  90  6
 [2,] 11  90 12
 [3,] 11  90 18
 [4,] 11 110  6
 [5,] 11 110 12
 [6,] 11 110 18
 [7,] 11 130  6 
    # the following is the true data generating process, note that y is a function of
    #   x1 & x2, but not x3, note also that x1 is designed above w/ a restricted range,
    #   & that x2 tends to have less influence on the response variable than x1:
y  = 15 + 2*x1 + .2*x2 + rnorm(N, mean=0, sd=10)

reg.Model = lm(y~x1+x2+x3)    # fits a regression model to these data

Теперь давайте посмотрим, как это выглядит:

. . . 
Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) -1.76232   27.18170  -0.065  0.94871   
x1           3.11683    2.09795   1.486  0.14716   
x2           0.21214    0.07661   2.769  0.00927 **
x3           0.17748    0.34966   0.508  0.61524   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
. . . 
F-statistic: 3.378 on 3 and 32 DF,  p-value: 0.03016

Мы можем сосредоточиться на разделе «Коэффициенты» вывода. Каждый параметр, оцениваемый моделью, получает свой собственный ряд. Сама фактическая оценка указана в первом столбце. Во втором столбце перечислены стандартные ошибки оценок, то есть оценка того, сколько оценок «подпрыгнет» от выборки к выборке, если мы будем повторять этот процесс снова и снова и снова. Более конкретно, это оценка стандартного отклонения выборочного распределения оценки. Если мы разделим оценку каждого параметра на его SE, мы получим t-показатель , который указан в третьем столбце; это используется для проверки гипотез, в частности, для проверки того, является ли оценка параметра «значительно» отличной от 0. Последний столбец - этор-значение, связанное с этим т-баллом. Это вероятность найти оценочное значение, которое далеко или дальше от 0, если нулевая гипотеза была верна. Обратите внимание, что если нулевая гипотеза не верна, не ясно, что это значение говорит нам что-либо значимое вообще.

Если мы посмотрим назад и назад между таблицей коэффициентов и приведенным выше процессом генерации данных, мы увидим несколько интересных вещей. Перехват оценивается как -1,8, а его SE равен 27, тогда как истинное значение равно 15. Поскольку соответствующее значение p равно 0,95, оно не будет считаться «существенно отличающимся» от 0 ( ошибка типа II ), но тем не менее, оно находится в пределах одного SE от истинного значения. Таким образом, нет ничего ужасно экстремального в этой оценке с точки зрения истинного значения и количества, которое она должна колебаться; у нас просто недостаточно сил, чтобы отличить его от 0. Та же история более или менее справедлива дляx1 . Аналитики данных обычно говорят, что он даже не «незначительно значим», потому что его значение p> .10, однако это еще одна ошибка типа II. Оценка x2довольно точная $.21214\approx.2$ и значение p является «очень значительным», это правильное решение. x3также нельзя отличить от 0, р = 0,62, другое правильное решение (х3 не отображается в процессе генерации данных выше). Интересно, что значение p больше, чем для x1, но меньше, чем для перехвата, оба из которых являются ошибками типа II. Наконец, если мы посмотрим ниже таблицы коэффициентов, то увидим F-значение для модели, которая является одновременным тестом. Этот тест проверяет, предсказывает ли модель в целом переменную ответа лучше, чем один шанс. Еще один способ сказать это, является ли или нет всеоценки следует считать невозможными для дифференциации от 0. Результаты этого теста показывают, что по крайней мере некоторые из оценок параметров не равны 0, другое правильное решение. Поскольку есть 4 теста, описанных выше, у нас не было бы защиты от проблемы множественных сравнений без этого. (Имейте в виду, что, поскольку p-значения являются случайными переменными - значимость чего-либо будет варьироваться от эксперимента к эксперименту, если бы эксперимент был повторен - возможно, что они несовместимы друг с другом. Это обсуждается на Резюме здесь: Значение коэффициентов в множественной регрессии: значимый t-критерий по сравнению с незначимой F-статистикой и противоположная ситуация здесь: как регрессия может быть значимой, но все предикторы должны быть незначительными, & здесь: F и t статистика в регрессии .) Любопытно, что в этом примере нет ошибок типа I. В любом случае, все 5 тестов, обсуждаемых в этом параграфе, являются тестами гипотез.

Из вашего комментария, я полагаю, вы также можете спросить, как определить, является ли одна объясняющая переменная более важной, чем другая. Это очень распространенный вопрос, но довольно сложный. Представьте себе, что вы хотите предсказать потенциал успеха в спорте на основе роста и веса спортсмена и подумать, что важнее. Общая стратегия состоит в том, чтобы посмотреть, какой оценочный коэффициент больше. Однако эти оценки являются специфическими для единиц измерения, которые использовались: например, коэффициент для веса будет изменяться в зависимости от того, используются ли фунты или килограммы. Кроме того, не совсем ясно, как приравнивать / сравнивать фунты и дюймы, или килограммы и сантиметры. Одна из стратегий, которую используют люди, - это стандартизация(т. е. превратить в z-оценки) их данные в первую очередь. Тогда эти измерения в общих единицах (то есть, стандартные отклонения), а коэффициенты аналогичны r-показателям . Кроме того, можно проверить, больше ли один r-показатель, чем другой . К сожалению, это не вытащит вас из леса; если истинное r не равно точно 0, предполагаемое r в значительной степени определяется диапазоном используемых ковариатных значений. (Я не знаю , как легко будет распознать, но @ whuber отличного ответа здесь: Is $R^2$ полезно или опасно , иллюстрирует этот момент; чтобы увидеть это, просто подумай о том, как $r=\sqrt{r^2}$ Таким образом, лучшее, что можно сказать, - это то, что изменчивость одной объясняющей переменной в пределах определенного диапазона важнее для определения уровня ответа, чем изменчивость в другой объясняющей переменной в пределах другого указанного диапазона.

— Gung - Восстановить Монику
источник

2

Основным тестом в регрессионных моделях является тест Full-Reduced. Здесь вы сравниваете две регрессионные модели, в полной модели содержатся все термины, а в сокращенном тесте есть подмножество этих терминов (уменьшенная модель должна быть вложена в полную модель). Затем тест проверяет нулевую гипотезу о том, что приведенная модель подходит точно так же, как и полная модель, и любое различие обусловлено случайностью.

Обычные распечатки из статистического программного обеспечения включают общий F-тест, это всего лишь тест Full-Reduced, где сокращенный тест является моделью только для перехвата. Они также часто печатают значение p для каждого отдельного предиктора, это всего лишь серия тестов модели с полным сокращением, в каждом из которых сокращенная модель не включает этот конкретный термин. Есть много способов использовать эти тесты, чтобы ответить на интересующие вопросы. Фактически, почти каждый тест, который преподается на вводном курсе статистики, может быть вычислен с использованием регрессионных моделей и теста Full-Reduced, и результаты будут идентичны во многих случаях и очень близко приближаются к нескольким другим.

— Грег Сноу
источник