Коэффициент определения (

Я хочу полностью понять понятие описывающее количество вариаций между переменными. Каждое веб-объяснение немного механическое и тупое. Я хочу «получить» концепцию, а не просто механически использовать числа. $r^2$

Например: количество изученных часов и результаты теста

$r$ = 0,8

$r^2$ = .64

Итак, что это значит?
64% вариабельности результатов теста можно объяснить часами?
Как мы узнаем это просто по квадрату?

regression correlation variance

— JackOfAll
источник

Ваш вопрос не о R против R-квадрат (вы понимаете , что

{0.8}^{2} = 0.64

$0.8^2=0.64$ ) речь идет о толковании

r^{2}

$r^2$ . Пожалуйста, переформулируйте название.

— Робин Жирар

аналогичный вопрос: stats.stackexchange.com/questions/28139/…

— Абэ

@amoeba согласился, я вытащил тег.

— Бретт

Вы должны

n

$n$ , чтобы определить значение. Также см. Stats.stackexchange.com/a/265924/99274 .

— Карл

Ответы:

Начните с основной идеи вариации. Ваша начальная модель - это сумма квадратов отклонений от среднего. Значение R ^ 2 - это доля этого отклонения, которая учитывается с использованием альтернативной модели. Например, R-квадрат говорит вам, от какой вариации Y вы можете избавиться, суммируя квадрат расстояний от линии регрессии, а не от среднего значения.

Я думаю, что это станет совершенно ясно, если мы подумаем о простой задаче регрессии. Рассмотрим типичную диаграмму рассеяния, где у вас есть предиктор X по горизонтальной оси и ответ Y по вертикальной оси.

Среднее значение представляет собой горизонтальную линию на графике, где Y является постоянной величиной. Общее отклонение Y представляет собой сумму квадратов разностей между средним значением Y и каждой отдельной точкой данных. Это расстояние между средней линией и каждой отдельной точкой в квадрате и суммировании.

Вы также можете рассчитать другую меру изменчивости после того, как у вас будет линия регрессии из модели. Это разница между каждой точкой Y и линией регрессии. Вместо каждого (Y - среднего) квадрата мы получаем (Y - точка на линии регрессии) квадрат.

Если линия регрессии отличается от горизонтальной, мы получим меньшее общее расстояние, когда будем использовать эту подогнанную линию регрессии, а не среднее значение - то есть, будет меньше необъяснимых изменений. Соотношение между дополнительным объясненным изменением и исходным изменением - это ваше R ^ 2. Это пропорция исходного отклонения в вашем ответе, которая объясняется подгонкой этой линии регрессии.

Вот некоторый R-код для графика со средним, линией регрессии и отрезками от линии регрессии до каждой точки, чтобы помочь визуализировать:

library(ggplot2)
data(faithful)

plotdata <- aggregate( eruptions ~ waiting , data = faithful, FUN = mean) 

linefit1 <- lm(eruptions ~ waiting, data = plotdata)

plotdata$expected <- predict(linefit1)
plotdata$sign <- residuals(linefit1) > 0

p <- ggplot(plotdata, aes(y=eruptions, x=waiting, xend=waiting, yend=expected) )  

p  + geom_point(shape = 1, size = 3) +
     geom_smooth(method=lm, se=FALSE) + 
     geom_segment(aes(y=eruptions, x=waiting, xend=waiting, yend=expected, colour = sign),  
                  data = plotdata) +
     theme(legend.position="none")  +
     geom_hline(yintercept = mean(plotdata$eruptions), size = 1)

— Brett
источник

> Соотношение между объясненным вариантом и исходным вариантом - ваше R ^ 2. Посмотрим, получил ли я это. Если исходное отклонение от среднего составляет 100, а отклонение регрессии - 20, то отношение = 20/100 = .2 Вы говорите, что R ^ 2 = .2 b / c учитывается 20% среднего отклонения (красный) для объясненного отклонения (зеленый) (в случае r = 1) Если исходное отклонение составляет 50, а отклонение регрессии составляет 0, то отношение = 0/50 = 0 = 0% отклонения от среднего значения ( красный) объясняется объясненным изменением (зеленый), я ожидаю, что R ^ 2 будет 1, а не 0.

— JackOfAll

R ^ 2 = 1- (SSR / SST) или (SST-SSR) / SST. Итак, в ваших примерах R ^ 2 = 0,80 и 1,00. Разница между линией регрессии и каждой точкой заключается в том, что она не объясняется подгонкой. Остальное пропорция объясняется. В противном случае это совершенно верно.

— Бретт

Я отредактировал последний абзац, чтобы сделать его немного понятнее. Концептуально (и в вычислительном отношении) все, что вам нужно, там. Может быть, было бы яснее на самом деле добавить формулу и сослаться на SST SSE и SSR, но потом я пытался понять это концептуально

— Бретт

то есть: R ^ 2 - это доля общего отклонения от среднего (SST), которая представляет собой разницу между ожидаемым регрессионным значением и средним значением (SSE). В моем примере часов по сравнению со счетом значение регрессии было бы ожидаемым результатом теста, основанным на корреляции с изученными часами. Любое дополнительное отклонение от этого относится к ССР. Для данной точки часы, изученные переменная / регрессия, объясняли x% общего отклонения от среднего значения (SST). При высоком значении r «объясняется» большой процент SST по сравнению с SSR. При низком значении r «объяснено» означает более низкий процент SST по сравнению с SSR.

— JackOfAll

@BrettMagill, я думаю, что ссылка на изображение не работает ...

— Garrett

Математическая демонстрация взаимосвязи между ними здесь: корреляция Пирсона и регрессионный анализ методом наименьших квадратов .

Я не уверен, есть ли геометрическая или какая-либо другая интуиция, которая может быть предложена кроме математики, но если я могу думать о ней, я обновлю этот ответ.

Обновление: Геометрическая Интуиция

$x$ $y$ $y$

$y = x\ \beta + \epsilon$

$y_1,y_2$ $x_1,x_2$

альтернативный текст http://a.imageshack.us/img202/669/linearregression1.png

$\beta$ $x\ \beta$ $y$ $\beta$ $x$ $\hat{\beta}$ $\beta$ $y$ $\hat{y} = x\ \hat{\beta}$

$y = \hat{y} + \hat{\epsilon}$

$y$ $\hat{y}$ $\hat{\epsilon}$ $\hat{\beta}$

$\beta$ $x\ \beta$ $\hat{\epsilon}$

$y$ $y$ $x$ $y$ $y_1^2+y_2^2$ $y$ $\hat{y}$ $\hat{y}$

По теореме Пифагора имеем:

$y^2 = \hat{y}^2 + \hat{\epsilon}^2$

$x$ $\frac{\hat{y}^2}{y^2}$ $cos(\theta) = \frac{\hat{y}}{y}$

Поэтому у нас есть необходимые отношения:

$y$ $x$

Надеюсь, это поможет.

Я ценю вашу попытку помочь, но, к сожалению, это только ухудшило ситуацию в 10 раз. Вы действительно вводите тригонометрию, чтобы объяснить г ^ 2? Ты слишком умен, чтобы быть хорошим учителем!

— JackOfAll

Я думал, что вы хотите знать, почему корреляция ^ 2 = R ^ 2. В любом случае, разные способы понимания одной и той же концепции помогают или, по крайней мере, такова моя точка зрения.

Регрессия По глазам апплет может быть полезно , если вы пытаетесь развить некоторые интуиции.

Это позволяет генерировать данные, а затем угадывать значение для R , которое затем можно сравнить с фактическим значением.

— АРС
источник