Средняя квадратическая ошибка и остаточная сумма квадратов


31

Глядя на определения Википедии:

Мне кажется, что

MSE=1NRSS=1N(fiyi)2

где - это количество выборок, а - наша оценка .Nfiyi

Тем не менее, ни одна из статей Википедии не упоминает эту связь. Зачем? Я что-то пропустил?


6
Я знаю, что это кажется бесполезным и враждебным, но они не упоминают об этом, потому что это очевидно. Кроме того, вы хотите быть немного осторожнее, здесь. Обычно, когда вы сталкиваетесь с MSE в реальной эмпирической работе, это не деленное на N, а R S S, деленное на N - K, где K - число (включая пересечение) переменных правой части в некоторой регрессионной модели , RSSNRSSNKK
Билл

10
@ Билл: Ну, именно такие отношения обычно приводят к ссылкам на статьи в Википедии. Ваша точка зрения относительно степени свободы также показывает, что это не так очевидно и определенно стоит упомянуть.
Bluenote10

2
@ Билл: Согласитесь, однако очевидность очень субъективна. Серая область статистики / машинного обучения усеяна нотацией ада, и поэтому хорошо быть явным.
rnoodle

Ответы:


30

На самом деле это упоминается в разделе регрессии среднего квадрата ошибки в Википедии:

В регрессионном анализе термин среднеквадратичная ошибка иногда используется для обозначения объективной оценки дисперсии ошибки: остаточной суммы квадратов, деленной на число степеней свободы.

Вы также можете найти здесь некоторую информацию: Ошибки и остатки в статистике. Здесь говорится, что выражение «среднеквадратичная ошибка» может иметь разные значения в разных случаях, что иногда бывает сложно.


4

Но имейте в виду, что Sum of Squared Erros (SSE) и Residue Sum of Squares (RSS) иногда используются взаимозаменяемо, что приводит в замешательство читателей. Например, проверьте этот URL: https://365datascience.com/sum-squares/ для получения дополнительной информации о линейной регрессии.

Строго говоря, со статистической точки зрения ошибки и остатки - это совершенно разные понятия. Ошибки в основном относятся к разнице между фактическими наблюдаемыми значениями выборки и вашими предсказанными значениями и используются в основном в статистических показателях, таких как среднеквадратичные ошибки (RMSE) и средние абсолютные ошибки (MAE). Напротив, остатки относятся исключительно к различиям между зависимыми переменными и оценками от линейной регрессии.


0

Я не думаю, что это правильно, если мы считаем MSE областью RMSE. Например, у вас есть серия выборочных данных о прогнозах и наблюдениях, теперь вы пытаетесь выполнить линейную регрессию: Наблюдение (O) = a + b X Прогноз (P). В этом случае MSE представляет собой сумму квадратов разности между O и P и делится на размер выборки N.

Но если вы хотите измерить, как работает линейная регрессия, вам нужно рассчитать среднее квадратическое значение (MSR). В том же случае сначала будет вычисляться остаточная сумма квадратов (RSS), которая соответствует сумме квадратов разностей между фактическими значениями наблюдений и прогнозируемыми наблюдениями, полученными из линейной регрессии. Затем следует RSS, деленная на N-2, чтобы получить MSR.

Проще говоря, в этом примере MSE не может быть оценена с использованием RSS / N, поскольку компонент RSS больше не является тем же самым для компонента, используемого для вычисления MSE.


1
Я не понимаю этот ответ.
Майкл Р. Черник

Посмотрите, на основе упомянутого примера выборочного прогнозирования и наблюдаемых значений данных установлена ​​линейная регрессия: Наблюдение (O) = a + b X Прогноз (P) (a, b - перехват и наклон соответственно). В этом случае MSE = Σ (OP) ^ 2 / n, где Σ (OP) ^ 2 - сумма квадратов ошибок (SSE), а n - размер выборки. Тем не менее, среднеквадратичные вычеты (MSR) = Σ (OO´) ^ 2 / n-2, где Σ (OO´) ^ 2 равно Остатку суммы квадратов (RSS) и O` = a + b X P. MSR и RSS в основном используются для проверки общей значимости линейной регрессии. Также обратите внимание, SSE = систематическая ошибка (SE) + RSS, где SE = Σ (PO´) ^ 2
Dr.CYY
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.