Интерпретация результатов R's lm ()


234

Страницы справки в R предполагают, что я знаю, что означают эти цифры, но я не знаю. Я пытаюсь действительно интуитивно понять каждый номер здесь. Я просто опубликую результаты и прокомментирую то, что узнал. Могут быть (будут) ошибки, так как я просто напишу, что я предполагаю. В основном я хотел бы знать, что означают значения t в коэффициентах и ​​почему они выводят остаточную стандартную ошибку.

Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.09907 -0.23626 -0.01064  0.23345  1.17532 

Это 5-балльная сводка по остаткам (их среднее значение всегда равно 0, верно?). Числа могут быть использованы (я думаю, здесь), чтобы быстро увидеть, есть ли какие-либо большие выбросы. Также вы уже можете увидеть это здесь, если остатки далеки от нормального распределения (они должны быть нормально распределены).

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)       3.30843    0.06210  53.278  < 2e-16 ***
iris$Petal.Width -0.20936    0.04374  -4.786 4.07e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Оценки , вычисленные по регрессии наименьших квадратов. Также стандартной ошибкой является . Я хотел бы знать, как это рассчитывается. Я понятия не имею, откуда берется t-значение и соответствующее p-значение. Я знаю, что должен быть нормально распределенным, но как рассчитывается t-значение?βi^σβiβ^

Residual standard error: 0.407 on 148 degrees of freedom

1npϵTϵ , наверное. Но почему мы рассчитываем это, и что это говорит нам?

Multiple R-squared: 0.134,  Adjusted R-squared: 0.1282 

R2=sy^2sy2 , то есть . Соотношение близко к 1, если точки лежат на прямой линии, и 0, если они случайные. Что такое скорректированный R-квадрат?i=1n(yi^y¯)2i=1n(yiy¯)2

F-statistic: 22.91 on 1 and 148 DF,  p-value: 4.073e-06 

F и p для всей модели, а не только для одиночных с предыдущей. Значение F равно . Чем больше он растет, тем менее вероятно, что - вообще не имеют никакого эффекта.βisy^2ϵiβ


остатки не так сильно отклоняются от нормальности, почему вы так думаете?
Нико

@nico: Я думаю, что @ Алекс Хардт говорил гипотетически. Т.е. когда-то можно было использовать сводку из пяти чисел, чтобы увидеть, отклоняются ли остатки от нормы
Гевин Симпсон,

@ Гэвин Симпсон: ты прав, я неправильно понял предложение. Не обращайте внимания на мой предыдущий комментарий.
Нико

9
Незначительный спор: Вы не можете ничего сказать о нормальности или ненормальности, основываясь только на этих 5 квантилях. Все, что вы можете сказать на основе этого резюме, это то, являются ли предполагаемые остатки приблизительно симметричными относительно нуля. Вы можете разделить сообщенные квантили на предполагаемую остаточную стандартную ошибку и сравнить эти значения с соответствующими квантилями N (0,1), но, вероятно, имеет смысл рассмотреть график QQ.
Фабианс

5
Одно замечание: модель - это не , скорее это . правильно описан в ответе ниже, но в нем явно не упоминается, что он неверно охарактеризован в вопросе, поэтому кто-то может не заметить расхождения. FSSmodel/SSerrorMSmodel/MSerrorF
gung

Ответы:


203

Итог из пяти пунктов

да, идея состоит в том, чтобы дать краткое описание распределения. Он должен быть примерно симметричным относительно среднего значения, медиана должна быть близка к 0, значения 1Q и 3Q в идеале должны быть примерно одинаковыми значениями.

Коэффициенты иβi^s

Каждый коэффициент в модели является гауссовой (нормальной) случайной величиной. является оценкой среднего распределения этой случайной величины, и стандартная ошибка есть квадратный корень из дисперсии этого распределения. Это мера неопределенности в оценке .βi^βi^

Вы можете посмотреть, как они вычисляются (хорошо используются математические формулы) в Википедии . Обратите внимание, что любая уважающая себя программа статистики не будет использовать стандартные математические уравнения для вычисления потому что выполнение их на компьютере может привести к большой потере точности вычислений.βi^

t статистика

В статистические оценки ( ) делится на их стандартные ошибки ( ), например . Предполагая, что вы имеете ту же модель в объекте, что и ваш Q:tβi^σi^ti=βi^σi^mod

> mod <- lm(Sepal.Width ~ Petal.Width, data = iris)

тогда значения отчетов R вычисляются как:t

> tstats <- coef(mod) / sqrt(diag(vcov(mod)))
(Intercept) Petal.Width 
  53.277950   -4.786461 

Где coef(mod)находятся и дает квадратные корни диагональных элементов ковариационной матрицы параметров модели, которые являются стандартными ошибками параметров ( ).βi^sqrt(diag(vcov(mod)))σi^

Значение p - это вероятность достижения aравным или превышающим наблюдаемое абсолютное значение t, если нулевая гипотеза ( ) была верной, где равно . Они вычисляются как (используя сверху):|t|H0H0βi=0tstats

> 2 * pt(abs(tstats), df = df.residual(mod), lower.tail = FALSE)
 (Intercept)  Petal.Width 
1.835999e-98 4.073229e-06

Таким образом, мы рассчитываем верхнюю хвостовую вероятность достижения значений мы сделали из распределения со степенями свободы, равными остаточным степеням свободы модели. Это представляет вероятность достижения значения большего, чем абсолютные значения наблюдаемых s. Он умножается на 2, потому что, конечно, может быть большим и в отрицательном направлении.ttttt

Остаточная стандартная ошибка

Остаточная стандартная ошибка является оценкой параметра . Предположение в обычных наименьших квадратах состоит в том, что невязки индивидуально описываются гауссовым (нормальным) распределением со средним 0 и стандартным отклонением . относится к постоянной дисперсии предположения; каждый остаток имеет одинаковую дисперсию, и эта дисперсия равна .σσσσ2

СкорректированоR2

Скорректированный рассчитывается как:R2

1(1R2)n1np1

Скорректированный - это то же самое, что и , но с учетом сложности (то есть количества параметров) модели. При наличии модели с одним параметром, с определенным , если мы добавим еще один параметр в эту модель, новой модели должен возрасти, даже если добавленный параметр не имеет статистической мощности. Скорректированная учитывает это путем включения количества параметров в модель.R2R2R2R2R2

F -статистический

представляет собой отношение двух дисперсий ( ), дисперсия объясняется параметрами в модели (сумма квадратов регрессии, SSR) и остаточная дисперсией или необъяснимой (сумма квадратов ошибок, SSE). Вы можете увидеть это лучше, если мы получим таблицу ANOVA для модели через :FSSR/SSEanova()

> anova(mod)
Analysis of Variance Table

Response: Sepal.Width
             Df  Sum Sq Mean Sq F value    Pr(>F)    
Petal.Width   1  3.7945  3.7945   22.91 4.073e-06 ***
Residuals   148 24.5124  0.1656                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

В s являются одинаковыми в выходных данных ANOVA и выход. Столбец содержит две дисперсии и . Мы можем вычислить вероятность достижения такого большого значения при нулевой гипотезе отсутствия эффекта из распределения с 1 и 148 степенями свободы. Это то, что сообщается в последнем столбце таблицы ANOVA. В простом случае одного непрерывного предиктора (согласно вашему примеру) , поэтому значения p одинаковы. Эта эквивалентность имеет место только в этом простом случае.Fsummary(mod)Mean Sq3.7945/0.1656=22.91FFF=tPetal.Width2


5
@Gavin (+1) Отличный ответ с хорошими иллюстрациями!
ЧЛ

2
Хорошая работа. Одна вещь, которую вы могли бы уточнить, в отношении вычисления значений t: sqrt (diag (vcov (mod))) производит SE из оценок. Это те же SE, которые выводятся в сводке модели. Проще и понятнее просто сказать, что t = Estimate / SEestimate. В этом смысле он ничем не отличается от любого другого значения t.
Бретт

2
(+1) Это здорово. Единственное, что я хотел бы добавить, это то, что значение такое же, как для наклона (вот почему значения p одинаковы). Это - конечно - не верно с несколькими объясняющими переменными. Ft2

2
@Jay; Благодарю. Я тоже думал об упоминании этой эквивалентности. Не был уверен, было ли это слишком много деталей или нет? Я объявлю кое-что об этом в мес.
Гэвин Симпсон

2
"не будет использовать стандартные математические уравнения для вычисления" Что они будут использовать?
SmallChess

0

Ронен Исраэль и Эдриенн Росс (AQR) написали очень хорошую статью на эту тему: Измерение воздействия факторов: использование и злоупотребления .

Подводя итог (см .: с. 8),

  • Как правило, чем выше тем лучше модель объясняет доходность портфеля.R2
  • Когда t-статистика больше двух, мы можем с уверенностью сказать 95% (или с 5% вероятностью, что мы ошибаемся), что бета-оценка статистически отличается от нуля. Другими словами, мы можем сказать, что портфель имеет значительную подверженность фактору.

lm()Сводка R вычисляет значение p Pr(>|t|). Чем меньше значение p, тем значительнее фактор. Значение P = 0,05 является разумным порогом.


6
Типы искажений в этой статье, например: «Когда t-статистика больше двух, мы можем сказать (с вероятностью 5%, что мы ошибаемся), что бета-оценка статистически отличается от нуля» [при p , 11], обсуждаются по адресу stats.stackexchange.com/questions/311763 и stats.stackexchange.com/questions/26450 .
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.