Этот пост относится к двумерной модели линейной регрессии, . Я всегда брал разбиение общей суммы квадратов (SSTO) на сумму квадратов для ошибки (SSE) и суммы квадратов для модели (SSR) по вере, но как только я действительно начал думать об этом, я не понимаю почему это работает ...
Часть I действительно понимают:
: наблюдаемое значение y
: среднее значение всех наблюдаемых s
: подогнанное / предсказанное значение y для данного наблюдения x
: Остаток / ошибка (если возвести в квадрат и сложить для всех наблюдений, это SSE)
: насколько значение, соответствующее модели, отличается от среднего значения (если в квадрате и суммировать для всех наблюдений, это SSR)
: насколько наблюдаемое значение отличается от среднего значения (если суммировать и суммировать для всех наблюдений, это SSTO).
Я могу понять, почему, для одного наблюдения, ничего не возводя в квадрат, . И я могу понять, почему, если вы хотите сложить вещи по всем наблюдениям, вы должны возвести их в квадрат, или они сложат до 0.
Я не понимаю, почему (например, SSTO = SSR + SSE). Похоже, что если у вас есть ситуация, когда , то , а не . Почему это не так? = В + С 2 = B 2 + 2 В С + С 2 2 = B 2 + C 2