СКО против коэффициента определения


21

Я оцениваю физическую модель и хотел бы знать, какой из методов мне следует использовать здесь (между RMSE и Коэффициент определения R2)

Проблема заключается в следующем: у меня есть функция, которая выводит прогнозы для входного значения x, . У меня также есть фактическое наблюдение для этого значения, которое я называю .yxYИкс¯знак равное(Икс)YИкс

Мой вопрос в том, каковы плюсы и минусы RMSE или . Я видел, как их обоих использовали в документах для решения проблемы, над которой я работаю.р2

Ответы:


16

Я использовал их обоих, и хочу сделать несколько замечаний.

  • Rmse полезен, потому что это легко объяснить. Все знают, что это такое.
  • Rmse не показывает относительные значения. Если , вы должны знать диапазон . Если , тогда 0.2 - это хорошее значение. Если , это уже не так хорошо.α < y x < β α = 1 , β = 1000 α = 0 , β = 1рмsезнак равно0.2α<YИкс<βαзнак равно1,βзнак равно1000αзнак равно0,βзнак равно1
  • В соответствии с предыдущим подходом, rmse - это хороший способ скрыть тот факт, что опрошенные вами люди или измерения, которые вы провели, в основном одинаковы (все оценили продукт на 3 звезды), и ваши результаты выглядят хорошо, потому что данные помогли вам. Если бы данные были немного случайными, вы бы нашли свою модель на орбите Юпитера.
  • Используйте скорректированный коэффициент детерминации, а не обычныйр2
  • Коэффициент определения сложно объяснить. Даже людям, находящимся на местах, нужна сноска, например \ footnote {Скорректированный коэффициент детерминации - это доля изменчивости в наборе данных, которую можно объяснить статистической моделью. Это значение показывает, насколько хорошо будущие результаты могут быть предсказаны моделью. может принимать 0 как минимум и 1 как максимум.}р2
  • Коэффициент детерминации, однако, очень точен в описании того, насколько хорошо ваша модель объясняет явления. если , независимо от значений , ваша модель плохая. Я считаю, что пороговое значение для хорошей модели начинается с 0,6, и если у вас есть что-то около 0,7-0,8, ваша модель очень хорошая.г хр2знак равно0.2YИкс
  • Напомним, что говорит, что с вашей моделью вы можете объяснить 70% того, что происходит в реальных данных. Остальные 30% - это то, что вы не знаете и не можете объяснить. Возможно, это связано с тем, что существуют смешанные факторы, или вы допустили некоторые ошибки при построении модели.р2знак равно0.7
  • В информатике почти все используют rmse. Общественные науки чаще используют .р2
  • Если вам не нужно обосновывать параметры в вашей модели, просто используйте rmse. Однако, если вам нужно вставить, удалить или изменить параметры при построении модели, вам нужно использовать чтобы показать, что эти параметры могут лучше всего объяснить данные.р2
  • Если вы будете использовать , код на языке R. У него есть библиотеки, и вы просто даете ему данные, чтобы получить все результаты.р2

Для начинающего программиста было интересно писать о статистике. С уважением.


8
This value shows how well future outcomes can be predicted by the model- это чрезвычайно вводит в заблуждение и склоняется к просто неправильному . Нет гарантии, что высокий коэффициент детерминации в данной модели зависит от того, насколько хорошо будут предсказаны будущие результаты.
Prophet60091,

5
Я думаю, что утверждения типа « если ваша модель плохаяр2знак равно0.2 », « ваша модель очень хорошая » - это грубые обобщения. Если что-то для проблемы реального мира, 0,8, будет сильно подозревать проблемы р2знак равно0.7-0.8р2
переоснащения

3
если = 0,2, независимо от значений yx, ваша модель плохая. Я считаю, что пороговое значение для хорошей модели начинается с 0,6, и если у вас есть что-то около 0,7-0,8, ваша модель очень хорошая. Это в значительной степени зависит от области, в которой вы работаете. Представьте, что вы пытаетесь предсказать соответствующие индексы по стеку на следующий год. Вы были бы самым богатым человеком в мире с 0,2. R 2р2р2
Ян Хакенберг

Я согласен с Яном Хакенбергом и Пророком 60091. Части вашего ответа определенно неверны, и я не понимаю, почему это принятый ответ, и люди голосуют. На самом деле это, вероятно, означает, что люди используют свои метрики, не зная, как их интерпретировать ..
Корд Калдемейер

9

Независимо от того, какую ошибку вы даете, рассмотрите возможность представления вашего полного вектора результатов в приложении. Люди, которые любят сравнивать с вашим методом, но предпочитают другое измерение ошибок, могут получить такое значение из вашей таблицы.

р2 :

  • Не отражает систематических ошибок. Представьте, что вы измеряете диаметры вместо радиусов круглых объектов. Вы ожидаете переоценку 100%, но можете достичь близкого к 1.р2

  • Не согласен с предыдущими комментариями, что трудно понять. Чем выше значение, тем точнее ваша модель, но она может содержать систематические ошибки.р2

  • Можно выразить с помощью простой для понимания формулы, где вы строите соотношение суммы квадратов невязок и делите на среднее значение:

р2знак равно1-SSЕмеaNзнак равно1-Σ(Yя-Yя¯)2Σ(Yя-Y¯)2

  • должно быть выражено в более продвинутой версии . Здесь больше предикторов наказывают модель. Ожидается, что будет более устойчивым к переоснащению.рadJ,2

рMSЕ :

  • Вы можете достичь низкого только при наличии как высокой точности (одиночные, но большие выбросы наказывают сильно), так и отсутствия систематической ошибки. Таким образом, низкий гарантирует лучшее качество, чем высокий .рMSЕрMSЕр2

  • Этот номер имеет единицу и предназначен для людей, не знакомых с вашими данными, которые нелегко интерпретировать. Например, это может быть разделено на среднее значение данных для получения . Будьте осторожны, это не единственное определение . Некоторые люди предпочитают делить на диапазон своих данных, а не делить на среднее.реL,рMSЕреL,рMSЕ

Как уже упоминали другие люди, выбор может зависеть от вашей области и уровня техники. Есть ли общепринятый метод сравнения? Используйте те же измерения, что и они, и вы сможете напрямую связать преимущества своих методов в обсуждении.


7

Как среднеквадратичная ошибка (RMSE), так и коэффициент детерминации ( )р2 предоставляют различную, но дополняющую информацию, которая должна оцениваться при оценке вашей физической модели. Ни один из них не «лучше», но некоторые отчеты могут фокусироваться больше на одной метрике в зависимости от конкретного приложения.

Я хотел бы использовать следующее в качестве очень общего руководства для понимания различий между обеими метриками:

RMSE дает вам ощущение того , насколько близко (или далеко) ваши предсказанные значения из фактических данных , которые вы пытаетесь модели. Это полезно в различных приложениях, где вы хотите понять точность и точность предсказаний вашей модели (например, высота дерева моделирования).

Pros

  1. Это относительно легко понять и сообщить, так как сообщаемые значения находятся в тех же единицах, что и моделируемая зависимая переменная.

Cons

  1. Он чувствителен к большим ошибкам (штрафует большие ошибки предсказания больше, чем меньшие ошибки предсказания).

Коэффициент детерминации ( )р2 полезно , когда вы пытаетесь понять , насколько хорошо выбранная независимая переменная (s) объясняют изменчивость в вашей зависимой переменной (ы). Это полезно, когда вы пытаетесь объяснить, какие факторы могут влиять на основной интересующий процесс (например, климатические переменные и условия почвы, связанные с высотой дерева).

Pros

  1. Дает общее представление о том, насколько хорошо выбранные переменные соответствуют данным.

Cons

  1. По мере того, как в вашу модель добавляется больше независимых переменных, увеличивается (см. Прил. или информационный критерий Акаике в качестве потенциальных альтернатив).р2р2

Конечно, вышеизложенное будет зависеть от размера выборки и структуры выборки, и общее понимание того, что корреляция не подразумевает причинно-следственную


1

Существует также MAE, средняя абсолютная ошибка. В отличие от RMSE, он не слишком чувствителен к большим ошибкам. Из того, что я прочитал, некоторые поля предпочитают RMSE, другие - MAE. Мне нравится использовать оба.


0

На самом деле, для ученых-статистиков следует знать наилучшее соответствие модели, тогда RMSE очень важен для этих людей в его надежных исследованиях. Если RMSE очень близка к нулю, тогда модель лучше всего подходит.

Коэффициент детерминации хорош для других ученых, таких как сельское хозяйство и другие области. Это значение между 0 и 1. Если оно равно 1, 100% значений соответствуют наборам наблюдаемых данных. Если это 0, то данные полностью разнородны. Dr.SK.Khadar Babu, Университет VIT, Веллоре, Тамилнад, Индия.


0

Если к каждому элементу одного из векторов добавляется некоторое число, RMSE изменяется. То же самое, если все элементы в одном или обоих векторах умножаются на число. Код R следует;

#RMSE vs pearson's correlation
one<-rnorm(100)
two<-one+rnorm(100)

rumis<-(two - one)^2
(RMSE<-sqrt(mean(rumis)))
cor(one,two)

oneA<-one+100

rumis<-(two - oneA)^2
(RMSE<-sqrt(mean(rumis)))
cor(oneA,two)

oneB<-one*10
twoB<-two*10

rumis<-(twoB - oneB)^2
(RMSE<-sqrt(mean(rumis)))
cor(oneB,twoB)
cor(oneB,twoB)^2

0

В конечном счете, разница заключается лишь в стандартизации, поскольку обе приводят к выбору одной и той же модели, поскольку RMSE, умноженное на число наблюдений, находится в числителе или R в квадрате, а знаменатель последних постоянен во всех моделях (просто нанесите одну меру против другие для 10 разных моделей).

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.