Ответы:
Этот вопрос довольно старый, но на самом деле у меня есть ответ, которого здесь нет, и тот, который дает убедительную причину, по которой (при некоторых разумных допущениях) квадратная ошибка верна, в то время как любая другая сила неверна.
Скажем , у нас есть некоторые данные и хотим найти линейную (или любую другую) функцию f, которая лучше всего предсказывает данные, в том смысле, что плотность вероятности p f ( D ) для наблюдения этих данных должна быть максимальной по отношению к f (это называетсяоценка максимального правдоподобия ). Если предположить, что данные задаются как плюс нормально распределенный член ошибки со стандартным отклонением σ , то p f ( D ) = n ∏ i = 1 1 Это эквивалентно 1
Нет причины, по которой вы не могли бы попытаться минимизировать другие нормы, кроме x ^ 2, например, были написаны целые книги по квантильной регрессии, которая более или менее минимизирует | x | если вы работаете с медианой. Обычно это сложнее сделать и, в зависимости от модели ошибок, может не дать хороших оценок (в зависимости от того, означает ли это низкую дисперсию или несмещенную или низкую оценку MSE в контексте).
Что касается того, почему мы предпочитаем целочисленные моменты по сравнению с действительными числами, главная причина, вероятно, заключается в том, что хотя целочисленные степени действительных чисел всегда приводят к действительным числам, нецелые степени отрицательных действительных чисел создают комплексные числа, что требует использования абсолютное значение. Другими словами, в то время как 3-й момент вещественной случайной величины является действительным, 3-й момент не обязательно является действительным и поэтому вызывает проблемы интерпретации.
Кроме этого ...
Мы стараемся минимизировать дисперсию, оставленную в дескрипторах. Почему дисперсия? Прочитайте этот вопрос ; это также сочетается с (в основном молчаливым) предположением о том, что ошибки обычно распространяются.
Расширение:
два дополнительных аргумента:
Для дисперсий у нас есть этот хороший "закон", что сумма дисперсий равна дисперсии суммы для некоррелированных выборок. Если мы предположим, что ошибка не коррелирует с регистром, минимизация остатка квадратов будет работать напрямую, чтобы максимизировать объясненную дисперсию, что может быть не очень хорошим, но все еще популярным показателем качества.
Если мы предположим нормальность ошибки, оценка ошибки методом наименьших квадратов является максимальной вероятностью ошибки.
В обычных наименьших квадратах решение (A'A) ^ (- 1) x = A'b сводит к минимуму потери в квадрате ошибок и является решением с максимальной вероятностью.
Итак, во многом потому, что математика была легкой в этом историческом случае.
Но обычно люди сводят к минимуму множество различных функций потерь , таких как экспоненциальные, логистические, коши, Лапласа, Хьюбера и т. Д. Эти более экзотические функции потерь обычно требуют большого количества вычислительных ресурсов и не имеют решений в закрытой форме (в общем), поэтому они только начинают становиться более популярными сейчас.
Я понимаю, что, поскольку мы пытаемся минимизировать ошибки, нам нужно найти способ не оказаться в ситуации, когда сумма отрицательной разницы в ошибках равна сумме положительной разницы в ошибках, но мы не нашел хорошую подгонку. Мы делаем это путем возведения в квадрат суммы разности ошибок, что означает, что отрицательная и положительная разница в ошибках становятся положительными (). Если мы подняли в силу чего-то другого, кроме положительного целого числа, мы бы не решили эту проблему, потому что ошибки не имели бы того же знака, или если бы мы поднялись до степени чего-то, что не является целым числом, мы бы вошли в сложные области. номера.