Вот простой пример. Я не знаю, знакомы ли вы с R, но, надеюсь, код достаточно понятен.
set.seed(9) # this makes the example reproducible
N = 36
# the following generates 3 variables:
x1 = rep(seq(from=11, to=13), each=12)
x2 = rep(rep(seq(from=90, to=150, by=20), each=3 ), times=3)
x3 = rep(seq(from=6, to=18, by=6 ), times=12)
cbind(x1, x2, x3)[1:7,] # 1st 7 cases, just to see the pattern
x1 x2 x3
[1,] 11 90 6
[2,] 11 90 12
[3,] 11 90 18
[4,] 11 110 6
[5,] 11 110 12
[6,] 11 110 18
[7,] 11 130 6
# the following is the true data generating process, note that y is a function of
# x1 & x2, but not x3, note also that x1 is designed above w/ a restricted range,
# & that x2 tends to have less influence on the response variable than x1:
y = 15 + 2*x1 + .2*x2 + rnorm(N, mean=0, sd=10)
reg.Model = lm(y~x1+x2+x3) # fits a regression model to these data
Теперь давайте посмотрим, как это выглядит:
. . .
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.76232 27.18170 -0.065 0.94871
x1 3.11683 2.09795 1.486 0.14716
x2 0.21214 0.07661 2.769 0.00927 **
x3 0.17748 0.34966 0.508 0.61524
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
. . .
F-statistic: 3.378 on 3 and 32 DF, p-value: 0.03016
Мы можем сосредоточиться на разделе «Коэффициенты» вывода. Каждый параметр, оцениваемый моделью, получает свой собственный ряд. Сама фактическая оценка указана в первом столбце. Во втором столбце перечислены стандартные ошибки оценок, то есть оценка того, сколько оценок «подпрыгнет» от выборки к выборке, если мы будем повторять этот процесс снова и снова и снова. Более конкретно, это оценка стандартного отклонения выборочного распределения оценки. Если мы разделим оценку каждого параметра на его SE, мы получим t-показатель , который указан в третьем столбце; это используется для проверки гипотез, в частности, для проверки того, является ли оценка параметра «значительно» отличной от 0. Последний столбец - этор-значение, связанное с этим т-баллом. Это вероятность найти оценочное значение, которое далеко или дальше от 0, если нулевая гипотеза была верна. Обратите внимание, что если нулевая гипотеза не верна, не ясно, что это значение говорит нам что-либо значимое вообще.
Если мы посмотрим назад и назад между таблицей коэффициентов и приведенным выше процессом генерации данных, мы увидим несколько интересных вещей. Перехват оценивается как -1,8, а его SE равен 27, тогда как истинное значение равно 15. Поскольку соответствующее значение p равно 0,95, оно не будет считаться «существенно отличающимся» от 0 ( ошибка типа II ), но тем не менее, оно находится в пределах одного SE от истинного значения. Таким образом, нет ничего ужасно экстремального в этой оценке с точки зрения истинного значения и количества, которое она должна колебаться; у нас просто недостаточно сил, чтобы отличить его от 0. Та же история более или менее справедлива дляx1
. Аналитики данных обычно говорят, что он даже не «незначительно значим», потому что его значение p> .10, однако это еще одна ошибка типа II. Оценка x2
довольно точная.21214 ≈ .2и значение p является «очень значительным», это правильное решение. x3
также нельзя отличить от 0, р = 0,62, другое правильное решение (х3 не отображается в процессе генерации данных выше). Интересно, что значение p больше, чем для x1
, но меньше, чем для перехвата, оба из которых являются ошибками типа II. Наконец, если мы посмотрим ниже таблицы коэффициентов, то увидим F-значение для модели, которая является одновременным тестом. Этот тест проверяет, предсказывает ли модель в целом переменную ответа лучше, чем один шанс. Еще один способ сказать это, является ли или нет всеоценки следует считать невозможными для дифференциации от 0. Результаты этого теста показывают, что по крайней мере некоторые из оценок параметров не равны 0, другое правильное решение. Поскольку есть 4 теста, описанных выше, у нас не было бы защиты от проблемы множественных сравнений без этого. (Имейте в виду, что, поскольку p-значения являются случайными переменными - значимость чего-либо будет варьироваться от эксперимента к эксперименту, если бы эксперимент был повторен - возможно, что они несовместимы друг с другом. Это обсуждается на Резюме здесь: Значение коэффициентов в множественной регрессии: значимый t-критерий по сравнению с незначимой F-статистикой и противоположная ситуация здесь: как регрессия может быть значимой, но все предикторы должны быть незначительными, & здесь: F и t статистика в регрессии .) Любопытно, что в этом примере нет ошибок типа I. В любом случае, все 5 тестов, обсуждаемых в этом параграфе, являются тестами гипотез.
Из вашего комментария, я полагаю, вы также можете спросить, как определить, является ли одна объясняющая переменная более важной, чем другая. Это очень распространенный вопрос, но довольно сложный. Представьте себе, что вы хотите предсказать потенциал успеха в спорте на основе роста и веса спортсмена и подумать, что важнее. Общая стратегия состоит в том, чтобы посмотреть, какой оценочный коэффициент больше. Однако эти оценки являются специфическими для единиц измерения, которые использовались: например, коэффициент для веса будет изменяться в зависимости от того, используются ли фунты или килограммы. Кроме того, не совсем ясно, как приравнивать / сравнивать фунты и дюймы, или килограммы и сантиметры. Одна из стратегий, которую используют люди, - это стандартизация(т. е. превратить в z-оценки) их данные в первую очередь. Тогда эти измерения в общих единицах (то есть, стандартные отклонения), а коэффициенты аналогичны r-показателям . Кроме того, можно проверить, больше ли один r-показатель, чем другой . К сожалению, это не вытащит вас из леса; если истинное r не равно точно 0, предполагаемое r в значительной степени определяется диапазоном используемых ковариатных значений. (Я не знаю , как легко будет распознать, но @ whuber отличного ответа здесь: Isр2полезно или опасно , иллюстрирует этот момент; чтобы увидеть это, просто подумай о том, какг = г2--√Таким образом, лучшее, что можно сказать, - это то, что изменчивость одной объясняющей переменной в пределах определенного диапазона важнее для определения уровня ответа, чем изменчивость в другой объясняющей переменной в пределах другого указанного диапазона.