Как интерпретировать ошибки меры?


41

Я запускаю классификацию в Weka для определенного набора данных, и я заметил, что если я пытаюсь предсказать номинальное значение, выходные данные конкретно показывают правильно и неправильно предсказанные значения. Тем не менее, теперь я запускаю его для числового атрибута и вывод:

Correlation coefficient                 0.3305
Mean absolute error                     11.6268
Root mean squared error                 46.8547
Relative absolute error                 89.2645 %
Root relative squared error             94.3886 %
Total Number of Instances               36441 

Как мне это интерпретировать? Я пытался погуглить каждое понятие, но я не очень понимаю, так как статистика совсем не в моей области знаний. Я был бы очень признателен за ответ типа ELI5 с точки зрения статистики.

Ответы:


52

Обозначим истинное значение интереса как & и стоимости , оцененной с помощью какой - то алгоритм , как & thetas .θθ^

Корреляция говорит вам , сколько и θ связаны между собой . Это дает значения между - 1 и 1 , где 0 нет связи, 1 очень сильная, линейная зависимость и - 1 является обратной линейной связи (т.е. большие значения & thetas указывают меньшие значения & thetas , или наоборот). Ниже вы найдете иллюстрированный пример корреляции.θθ^-1101-1θθ^

Пример корреляции

(источник: http://www.mathsisfun.com/data/correlation.html )

Средняя абсолютная ошибка:

MAЕзнак равно1NΣязнак равно1N|θ^я-θя|

Корневая среднеквадратичная ошибка является:

рMSЕзнак равно1NΣязнак равно1N(θ^я-θя)2

Относительная абсолютная ошибка :

рAЕзнак равноΣязнак равно1N|θ^я-θя|Σязнак равно1N|θ¯-θя|

где представляет собой среднее значение & thetas .θ¯θ

Корневая относительная квадратная ошибка:

ррSЕзнак равноΣязнак равно1N(θ^я-θя)2Σязнак равно1N(θ¯-θя)2

Как видите, все статистические данные сравнивают истинные значения с их оценками, но делают это немного по-другому. Все они говорят вам «как далеко» ваши оценочные значения от истинного значения . Иногда используются квадратные корни, а иногда абсолютные значения - это потому, что при использовании квадратных корней экстремальные значения оказывают большее влияние на результат (см. Почему квадратная разница, а не абсолютное значение в стандартном отклонении? Или в Mathoverflow ).θ

MAЕрMSЕMSЕθθ^θ

рAЕррSЕθΣ(θ¯-θя)2Σ|θ¯-θя|θθθ

Проверьте также эти слайды .


Спасибо за ваше объяснение! Я пытаюсь оценить производительность различных алгоритмов. Так, например, если я получу этот другой вывод (корреляция: 0,3044, MAE: 10,832, MSE: 47,2971, RAE: 83,163%, RSE: 95,2797%), и я попытаюсь сравнить его с первым, который, я могу сказать, выполнил лучше?
FloIancu

5
Вы должны выбрать модель с большей корреляцией и меньшими оценками ошибок. Как видите, существует несколько показателей производительности модели (а их всего несколько), и иногда они дают разные ответы. Это почти никогда не тот ответ «да / нет», который вы получаете. Задача выбора модели станет проще, если вы догоняете теорию, вы можете проверить, например, эти лекции .
Тим

Большое спасибо! Я пошел дальше и отметил твой ответ как ответ, потому что ты мне очень помог!
FloIancu

1
@Tim Средняя абсолютная ошибка, вероятно, должна быть сокращена до MAE :)
Antoine

1
@MewX Какие ссылки вы ищете? Это в основном пересчитанная RMSE. Об этом особо нечего сказать ...
Тим
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.