Объяснение дисперсии регрессионной модели

13

Это может быть простое объяснение (я надеюсь, в любом случае).

Я сделал некоторый регрессионный анализ в Matlab, используя набор инструментов регрессии. Тем не менее, я наткнулся на исследование, в котором говорится:

«Используя регрессионный анализ, можно было установить прогностическую модель, используя только четыре звуковые характеристики, которые объясняют 60% дисперсии»

Ссылка на статью здесь при необходимости: Статья

Я не уверен на 100%, что это значит, но я надеюсь, что это что-то простое. И 60% - это хорошо? Я пытался найти это, но потому что перед словом «дисперсия» всегда есть процент, трудно найти ответ.

variance

— user1574598
источник

9

Я попытаюсь объяснить это простыми словами.

Регрессионная модель фокусируется на взаимосвязи между зависимой переменной и набором независимых переменных. Зависимая переменная - это результат, который вы пытаетесь предсказать, используя одну или несколько независимых переменных.

Предположим, у вас есть такая модель:

Вес_i = 3.0 + 35 * Высота_i + ε

Теперь один из очевидных вопросов: насколько хорошо работает эта модель? Другими словами, насколько хорошо рост человека точно предсказывает - или объясняет - вес этого человека?

Прежде чем ответить на этот вопрос, мы должны сначала понять, сколько колебаний мы наблюдаем в весе людей. Это важно, потому что то, что мы пытаемся сделать здесь, это объяснить колебания (вариации) весов разных людей, используя их высоты. Если рост людей может объяснить это изменение веса, то у нас есть хорошая модель.

Дисперсия является хорошей метрикой быть использовано для этой цели, так как он измеряет , насколько это набор чисел разложены (от их среднего значения).

Это помогает нам перефразировать наш первоначальный вопрос: насколько разница в весе человека может быть объяснена его ростом ?

Отсюда и «% объясненной дисперсии». Кстати, для регрессионного анализа он равен коэффициенту корреляции R-квадрат .

Для модели, приведенной выше, мы могли бы сделать заявление, например: Используя регрессионный анализ, можно было установить прогностическую модель, используя рост человека, который объясняет 60% дисперсии в весе ».

Теперь, насколько хорошо 60%? Трудно сделать объективное суждение по этому поводу. Но если у вас есть другие конкурирующие модели - скажем, другая регрессионная модель, которая использует возраст человека для прогнозирования его / ее веса - вы можете сравнить различные модели на основе того, насколько они отличаются, и решить, какая модель лучше. (Есть некоторые оговорки к этому, см. «Интерпретация и использование регрессии» - Кристофер Х. Ахен http://www.sagepub.in/books/Book450/authors )

— Вишал
источник

1

Это, безусловно, ответило на большую часть моего вопроса. С точки зрения того, почему авторы утверждают, что это имеет огромное значение, я не знаю. Итак, если это значение R-sqaured, и мы вернемся к вашему примеру: скажем, мы использовали модель для «возраста» с отклонением 80%, а затем и модель для «роста» с отклонением 85 %, чтобы предсказать вес человека, я так понимаю, что последняя модель будет более значимой? Спасибо за ссылку на книгу, я купил ее прошлой ночью, так как в предстоящие месяцы я буду часто использовать регрессию.

— user1574598

1

Да, вы можете сделать вывод, что последняя модель лучше в ее способности предсказать (или объяснить) вес человека при прочих равных условиях. Кстати, вы заявили, что «модель имела дисперсию 80%», но это должно быть «модель объясняет 80% дисперсии».

— Вишал

4

Авторы ссылаются на значение для модели, которое задается формулой $R^2$

\frac{\sum_{i = 1}^{n} ({\hat{y}}_{i} - \bar{y})^{2}}{\sum_{i = 1}^{n} (y_{i} - \bar{y})^{2}}

$\frac{\sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}$

где - наблюдаемое значение, - наименьшее квадратичное значение для точки данных а - общее среднее. Мы иногда думаем о как о пропорции вариации, объясняемой моделью из-за общей суммы разложения квадратов $y_i$ $\hat{y}_i$ $i^\text{th}$ $\bar{y}$ $R^2$

\sum_{i = 1}^{n} (y_{i} - \bar{y})^{2} = \sum_{i = 1}^{n} ({\hat{y}}_{i} - \bar{y})^{2} + \sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i})^{2},

$\sum_{i=1}^{n} (y_i - \bar{y})^2 = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 + \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 ,$

последний термин - остаточная ошибка, которая не учитывается моделью. в основном говорит о том , как много общего изменения были «поглощены» подобранными значениями. $R^2$

— dsaxton
источник