Линейная регрессия, что говорит нам статистика F, квадрат R и остаточная стандартная ошибка?

14

Меня действительно смущает различие в значении относительно контекста линейной регрессии следующих терминов:

F статистика
R в квадрате
Остаточная стандартная ошибка

Я нашел эту веб-страницу, которая дала мне отличное понимание различных терминов, связанных с линейной регрессией, однако упомянутые выше термины выглядят довольно много (насколько я понимаю). Я процитирую то, что я прочитал и что меня смутило:

Остаточная стандартная ошибка - это мера качества соответствия линейной регрессии ........ Остаточная стандартная ошибка - это средняя величина, на которую отклик (dist) будет отклоняться от истинной линии регрессии.

1. Таким образом, это фактически среднее расстояние наблюдаемых значений от линии lm?

R-квадрат статистики показывает, насколько хорошо модель соответствует фактическим данным.

2. Теперь я запутался, потому что, если RSE говорит нам, как далеко наши наблюдаемые точки отклоняются от линии регрессии, низкий RSE фактически говорит нам, что «ваша модель хорошо согласуется на основе наблюдаемых точек данных» -> таким образом, насколько хороши наши модели подходят, так в чем же разница между R в квадрате и RSE?

F-статистика - хороший показатель того, существует ли связь между нашим предиктором и переменными ответа.

3. Верно ли, что мы можем иметь значение F, указывающее на сильные отношения, которые НЕ являются ЛИНЕЙНЫМИ, так что наш RSE высокий, а наш квадрат R низкий

— KingBoomie
источник

Q 3 Fvalue не указывает на нелинейные отношения. Это соотношение, которое указывает, существует ли существенная (постоянная) связь между двумя переменными - зависимой и независимой.

— Субхаш С. Давар

Это не говорит нам о природе отношений - нелинейных или линейных.

— Субхаш С. Давар

12

Лучший способ понять эти термины - выполнить регрессионный расчет вручную. Я написал два тесно связанных ответа ( здесь и здесь ), однако они могут не полностью помочь вам понять ваш конкретный случай. Но все же прочитайте их. Возможно, они также помогут вам лучше понять эти термины.

$R^2$ $R^2$ $RSE$

$SS_{total}$
$SS_{residual}$
$SS_{model}$

Каждый из них оценивает, насколько хорошо модель описывает данные и является суммой квадратов расстояний от точек данных до подобранной модели (показаны на графике ниже красными линиями).

$SS_{total}$ cars

$SS_{residual}$

$SS_{model}$ $SS_{total}$ $SS_{residual}$

Чтобы ответить на ваши вопросы, давайте сначала вычислим те термины, которые вы хотите понять, начиная с модели и выводя в качестве справки:

# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares

Суммы квадратов - это квадраты расстояний отдельных точек данных до модели:

# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model

Средние квадраты - это суммы квадратов, усредненные по степеням свободы:

# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1

# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model

Мои ответы на ваши вопросы:

Q1:

Таким образом, это фактически среднее расстояние наблюдаемых значений от линии lm?

$RSE$ $MS_{residual}$

# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se

$SS_{residual}$ $MS_{residual}$ $SS_{residual}$ $RSE$ представляет среднее расстояние наблюдаемых данных от модели. Интуитивно понятно, что это также имеет смысл, потому что, если расстояние меньше, ваша модель будет лучше.

Q2:

Теперь я в замешательстве, потому что, если RSE говорит нам, как далеко наши наблюдаемые точки отклоняются от линии регрессии, низкий RSE фактически говорит нам, что «ваша модель хорошо согласуется на основе наблюдаемых точек данных» -> таким образом, насколько хорошо наши модели соответствуют Так в чем же разница между R в квадрате и RSE?

$R^2$ $SS_{model}$ $SS_{total}$

# R squared
r.sq <- ss.model/ss.total
r.sq

$R^2$ $SS_{total}$ $SS_{model}$

$RSE$ $R^2$ $RSE$

$R^2$

Q3:

Верно ли, что мы можем иметь значение F, указывающее на сильные отношения, которые НЕ являются ЛИНЕЙНЫМИ, так что наш RSE высокий, а наш квадрат R низкий

$F$ $MS_{model}$ $MS_{residual}$

# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F

$F$

Ваш третий вопрос немного сложен для понимания, но я согласен с приведенной вами цитатой.

— Стефан
источник

3

(2) Вы понимаете это правильно, вы просто испытываете трудности с концепцией.

$R^2$

— Крис
источник

0

Просто чтобы дополнить то, что Крис ответил выше:

F-статистика - это деление среднего квадрата модели и среднего квадрата остатка. Программное обеспечение, такое как Stata, после подбора регрессионной модели также предоставляет значение p, связанное с F-статистикой. Это позволяет вам проверить нулевую гипотезу о том, что коэффициенты вашей модели равны нулю. Вы можете думать об этом как о «статистической значимости модели в целом».

— МКЦ
источник