Вопрос очень прост: почему, когда мы пытаемся приспособить модель к нашим данным, линейным или нелинейным, мы обычно пытаемся минимизировать сумму квадратов ошибок, чтобы получить нашу оценку для параметра модели? Почему бы не выбрать другую целевую функцию, чтобы минимизировать? Я понимаю, что по техническим причинам квадратичная функция лучше, чем некоторые другие функции, например, сумма абсолютных отклонений. Но это все еще не очень убедительный ответ. Кроме этой технической причины, почему люди особенно поддерживают этот «евклидов тип» функции расстояния? Есть ли конкретное значение или интерпретация для этого?
Логика моего мышления заключается в следующем:
Когда у вас есть набор данных, вы сначала настраиваете свою модель, делая набор функциональных или распределительных допущений (скажем, некоторое условие момента, но не все распределение). В вашей модели есть несколько параметров (предположим, что это параметрическая модель), тогда вам нужно найти способ для последовательной оценки этих параметров, и, надеюсь, ваша оценка будет иметь низкую дисперсию и некоторые другие хорошие свойства. Независимо от того, минимизируете ли вы SSE или LAD или какую-либо другую целевую функцию, я думаю, что это просто разные методы для получения последовательной оценки. Следуя этой логике, я думал, что люди используют метод наименьших квадратов: 1) он дает непротиворечивую оценку модели 2) что-то еще, чего я не знаю.
В эконометрике мы знаем, что в модели линейной регрессии, если вы предполагаете, что слагаемые ошибки имеют нулевое среднее условие для предикторов, а гомоскедастичность и ошибки не связаны друг с другом, то минимизация суммы квадратических ошибок даст вам ПОСТОЯННУЮ оценку вашей модели параметры и по теореме Гаусса-Маркова, эта оценка является синим. Таким образом, можно предположить, что если вы решите минимизировать какую-то другую целевую функцию, которая не является SSE, то нет гарантии, что вы получите последовательную оценку параметра вашей модели. Правильно ли мое понимание? Если это правильно, то минимизация SSE, а не какой-либо другой целевой функции, может быть оправдана последовательностью, что на самом деле лучше, чем говорить, что квадратичная функция приятнее.
На самом деле я видел много случаев, когда люди напрямую минимизировали сумму квадратичных ошибок без предварительного четкого указания полной модели, например, предположений о распределении (предположений о моментах) в отношении ошибки. Тогда мне кажется, что пользователь этого метода просто хочет увидеть, насколько близко данные соответствуют «модели» (я использую кавычки, поскольку предположения модели, вероятно, неполны) в терминах функции квадратного расстояния.
Смежный вопрос (также связанный с этим веб-сайтом): почему, когда мы пытаемся сравнить разные модели, используя перекрестную проверку, мы снова используем SSE в качестве критерия суждения? т.е. выбрать модель, которая имеет наименьшее количество SSE? Почему не другой критерий?