Почему мы обычно выбираем минимизацию суммы квадратичных ошибок (SSE) при подборе модели?

23

Вопрос очень прост: почему, когда мы пытаемся приспособить модель к нашим данным, линейным или нелинейным, мы обычно пытаемся минимизировать сумму квадратов ошибок, чтобы получить нашу оценку для параметра модели? Почему бы не выбрать другую целевую функцию, чтобы минимизировать? Я понимаю, что по техническим причинам квадратичная функция лучше, чем некоторые другие функции, например, сумма абсолютных отклонений. Но это все еще не очень убедительный ответ. Кроме этой технической причины, почему люди особенно поддерживают этот «евклидов тип» функции расстояния? Есть ли конкретное значение или интерпретация для этого?

Логика моего мышления заключается в следующем:

Когда у вас есть набор данных, вы сначала настраиваете свою модель, делая набор функциональных или распределительных допущений (скажем, некоторое условие момента, но не все распределение). В вашей модели есть несколько параметров (предположим, что это параметрическая модель), тогда вам нужно найти способ для последовательной оценки этих параметров, и, надеюсь, ваша оценка будет иметь низкую дисперсию и некоторые другие хорошие свойства. Независимо от того, минимизируете ли вы SSE или LAD или какую-либо другую целевую функцию, я думаю, что это просто разные методы для получения последовательной оценки. Следуя этой логике, я думал, что люди используют метод наименьших квадратов: 1) он дает непротиворечивую оценку модели 2) что-то еще, чего я не знаю.

В эконометрике мы знаем, что в модели линейной регрессии, если вы предполагаете, что слагаемые ошибки имеют нулевое среднее условие для предикторов, а гомоскедастичность и ошибки не связаны друг с другом, то минимизация суммы квадратических ошибок даст вам ПОСТОЯННУЮ оценку вашей модели параметры и по теореме Гаусса-Маркова, эта оценка является синим. Таким образом, можно предположить, что если вы решите минимизировать какую-то другую целевую функцию, которая не является SSE, то нет гарантии, что вы получите последовательную оценку параметра вашей модели. Правильно ли мое понимание? Если это правильно, то минимизация SSE, а не какой-либо другой целевой функции, может быть оправдана последовательностью, что на самом деле лучше, чем говорить, что квадратичная функция приятнее.

На самом деле я видел много случаев, когда люди напрямую минимизировали сумму квадратичных ошибок без предварительного четкого указания полной модели, например, предположений о распределении (предположений о моментах) в отношении ошибки. Тогда мне кажется, что пользователь этого метода просто хочет увидеть, насколько близко данные соответствуют «модели» (я использую кавычки, поскольку предположения модели, вероятно, неполны) в терминах функции квадратного расстояния.

Смежный вопрос (также связанный с этим веб-сайтом): почему, когда мы пытаемся сравнить разные модели, используя перекрестную проверку, мы снова используем SSE в качестве критерия суждения? т.е. выбрать модель, которая имеет наименьшее количество SSE? Почему не другой критерий?

econometrics least-squares

— KevinKim
источник

Связанный: stats.stackexchange.com/questions/147001

— амеба говорит Восстановить Монику

14

Хотя ваш вопрос похож на ряд других вопросов на сайте, некоторые аспекты этого вопроса (например, ваш акцент на последовательность) заставляют меня думать, что они недостаточно близки к тому, чтобы быть дубликатами.

Почему бы не выбрать другую целевую функцию, чтобы минимизировать?

Почему бы и нет? Если ваша цель отличается от наименьших квадратов, вам следует обратиться к ней!

Тем не менее, метод наименьших квадратов обладает рядом приятных свойств (не в последнюю очередь, тесная связь с оценочными средствами , которые нужны многим людям, и простота, которая делает его очевидным первым выбором при обучении или попытке реализовать новые идеи).

Кроме того, во многих случаях люди не имеют четкой целевой функции, поэтому есть преимущество в выборе того, что легко доступно и широко понято.

Тем не менее, наименьшие квадраты также имеют некоторые менее приятные свойства (например, чувствительность к выбросам), поэтому иногда люди предпочитают более надежный критерий.

свести к минимуму сумму квадратичной ошибки даст вам ПОСТОЯННУЮ оценку параметров вашей модели

Наименьшие квадраты не являются обязательными для согласованности. Согласованность не является очень серьезным препятствием - множество оценок будет последовательным. Практически все оценки, которые люди используют на практике, являются последовательными.

и по теореме Гаусса-Маркова эта оценка СИНИЙ.

Но в ситуациях, когда все линейные оценки плохие (как, например, в случае экстремальных «тяжелых хвостов»), в лучшем случае не так много преимуществ.

если вы решите свести к минимуму какую-либо другую целевую функцию, которая не является SSE, то нет гарантии, что вы получите последовательную оценку параметра вашей модели. Правильно ли мое понимание?

нетрудно найти последовательные оценки, так что нет, это не особенно хорошее обоснование наименьших квадратов

почему, когда мы пытаемся сравнить разные модели, используя перекрестную проверку, мы снова используем SSE в качестве критерия оценки? [...] Почему не другой критерий?

Если ваша цель лучше отражена чем-то другим, почему бы и нет?

Нет недостатка в людях, использующих другие целевые функции, кроме наименьших квадратов. Это происходит в M-оценке, в наименьших оценках, в квантильной регрессии, и когда люди используют функции потерь LINEX, это лишь некоторые из них.

Я думал, что когда у вас есть набор данных, вы сначала настраиваете свою модель, то есть делаете набор функциональных или распределительных предположений. В вашей модели есть некоторые параметры (предположим, что это параметрическая модель),

Предположительно, параметры функциональных предположений - это то, что вы пытаетесь оценить, - в этом случае функциональные предположения - это то, что вы делаете наименьшими квадратами (или чем-то еще) вокруг ; они не определяют критерий, они - то, что оценивает критерий.

С другой стороны, если у вас есть предположение о распределении, то у вас есть много информации о более подходящей целевой функции - предположительно, например, вы захотите получить эффективные оценки ваших параметров - что в больших выборках будет склонны вести вас к MLE (хотя, возможно, в некоторых случаях встроены в робастизированную структуру).

тогда вам нужно найти способ последовательно оценить эти параметры. Минимизируете ли вы SSE или LAD или какую-либо другую целевую функцию,

LAD - это квантильная оценка. Это непротиворечивая оценка параметра, которую он должен оценивать в тех условиях, в которых он должен быть, таким же образом, как и наименьшие квадраты. (Если вы посмотрите на то, что вы показываете согласованность с наименьшими квадратами, то есть соответствующие результаты для многих других распространенных оценок. Люди редко используют противоречивые оценки, поэтому, если вы видите, что оценка широко обсуждается, если они не говорят о ее несоответствии, это почти безусловно, соответствует. *)

Тем не менее, последовательность не обязательно является существенным свойством. В конце концов, для моей выборки у меня есть определенный размер выборки, а не последовательность размеров выборки, стремящаяся к бесконечности. Важны свойства меня есть, а не бесконечно большие , которых у меня нет и которые я никогда не увижу . Но при наличии несоответствия требуется гораздо больше осторожности - у нас может быть хорошая оценка при = 20, но это может быть ужасно при = 2000; в некотором смысле требуется больше усилий, если мы хотим использовать непротиворечивые оценки. $n$ $n$ $n$ $n$

Если вы используете LAD для оценки среднего экспоненты, оно не будет согласованным для этого (хотя тривиальное масштабирование его оценки будет), но тем же путем, если вы используете наименьшие квадраты для оценки медианы экспоненты , это не будет согласовано для этого (и опять же, тривиальное изменение масштаба исправляет это).

— Glen_b - Восстановить Монику
источник

Я думаю, что я не выразил свою озабоченность четко. Я думал, что когда у вас есть набор данных, вы сначала настраиваете свою модель, то есть делаете набор функциональных или распределительных предположений. В вашей модели есть несколько параметров (предположим, что это параметрическая модель), тогда вам нужно найти способ для последовательной оценки этих параметров. Независимо от того, минимизируете ли вы SSE, LAD или какую-либо другую целевую функцию, я думаю, что это просто разные методы получения оценки. Следуя этой логике, я думал, что люди используют наименьший квадрат должен быть 1) он производит последовательную оценку модели 2) что-то еще

— KevinKim

Предположительно, параметры функциональных предположений - это то, что вы пытаетесь оценить, - в этом случае функциональные предположения - это то, что вы делаете наименьшими квадратами (или чем-то еще) вокруг; они не определяют критерий. С другой стороны, если у вас есть предположение о распределении, то у вас есть много информации о более подходящей целевой функции - предположительно, например, вы захотите получить эффективные оценки ваших параметров - которые в больших выборках будут склонны вести вас к MLE (хотя, возможно, в некоторых случаях встроены в робастизированную структуру).

— Glen_b

Этот ответ вписывается в мое мышление. Но у меня все еще есть вопрос, что вы подразумеваете под «они не определяют критерий»? Означает ли это, что, например, в эконометрическом 101 в линейной регрессии, в функциональном предположении (без распределения), чтобы получить непротиворечивую оценку, вы должны использовать ols, вы не можете использовать некоторую произвольную целевую функцию для минимизации, так как нет гарантия получения согласованной оценки оттуда?

— KevinKim

На "не определить" - позвольте мне расширить в своем ответе. По последовательности: я сказал обратное в своем ответе. Позвольте мне заявить это еще раз: наименьших квадратов не является требованием для согласованности. Это включает ситуацию, которую вы только что упомянули; Есть бесконечность альтернативных оценок, которые были бы последовательными. Практически все оценки, которые люди используют на практике, являются последовательными. Я отредактирую свой ответ, чтобы быть более явным.

— Glen_b

для вашего обновленного ответа - последний абзац, так что для некоторых моделей есть несколько способов, которые НЕ БУДУТ создавать непротиворечивые параметры для параметров вашей модели, хотя вы все равно можете применить этот метод, и compter даст вам некоторые числа, верно? Итак, могу ли я сказать, что для модели, которую люди строят, чтобы вывести оценки для параметров в модели, люди НЕ МОГУТ произвольно выбрать целевую функцию для оптимизации JUST, основываясь на ее хороших технических свойствах?

— KevinKim

5

Вы задали вопрос о статистике, и я надеюсь, что мой ответ инженера системы управления является ударом по нему с достаточно другого направления, чтобы быть просветляющим.

Вот «каноническая» форма информационных потоков для проектирования систем управления: введите описание изображения здесь

«R» для справочного значения. Он суммируется с преобразованием «F» выходных данных «у» для получения ошибки «е». Эта ошибка является входом для контроллера, преобразованного функцией передачи управления «C» в управляющий вход для установки «P». Он должен быть достаточно общим, чтобы применять его к произвольным растениям. «Завод» может быть автомобильным двигателем для круиз-контроля или углом ввода обратного маятника.

Допустим, у вас есть установка с известной передаточной функцией с феноменологией, подходящей для следующего обсуждения, текущего состояния и желаемого конечного состояния. ( таблица 2.1, стр. 68 ) Существует бесконечное число уникальных путей, которые система, с различными входами, могла бы пройти, чтобы перейти из начального в конечное состояние. Учебное пособие управляет инженером «оптимальных подходов», включая оптимальное время ( кратчайшее время / удар-взрыв ), оптимальное расстояние (кратчайший путь), оптимальное усилие (наименьшая максимальная величина входного сигнала) и оптимальное энергопотребление (минимальный суммарный ввод энергии).

Точно так же, как существует бесконечное число путей, существует бесконечное количество «оптимумов» - каждый из которых выбирает один из этих путей. Если вы выбираете один путь и говорите, что он лучший, то вы неявно выбираете «меру благости» или «меру оптимальности».

По моему личному мнению, я думаю, что такие люди, как норма L-2 (то есть оптимальная по энергии, то есть ошибка с наименьшим квадратом), потому что это просто, легко объяснить, легко выполнить, обладает способностью выполнять большую работу против больших ошибок, чем мелкие, и уходит с нулевым уклоном. Рассмотрим нормы h-бесконечности, где дисперсия минимизирована и смещение ограничено, но не равно нулю. Они могут быть весьма полезными, но их сложнее описать и сложнее кодировать.

Я думаю, что L2-норма, то есть минимизирующая энергию оптимальная траектория, то есть подгонка наименьших квадратов ошибок, проста и в ленивом смысле соответствует эвристике, что «большие ошибки более плохие, а меньшие ошибки менее плохие». Существует буквально бесконечное количество алгоритмических способов сформулировать это, но квадрат ошибки является одним из наиболее удобных. Это требует только алгебры, поэтому больше людей могут понять это. Он работает в (популярном) полиномиальном пространстве. Оптимальный по энергии согласуется с большей частью физики, составляющей наш воспринимаемый мир, поэтому он «кажется знакомым». Он прилично быстр для вычислений и не слишком ужасен для памяти.

Если у меня будет больше времени, я бы хотел добавить картинки, коды или библиографические ссылки.

— EngrStudent - Восстановить Монику
источник

1

$SSE$ $SSE$ $R^2$ $SST$

R^{2} = 1 - \frac{S S E}{S S T}

$R^2 = 1 - \frac{SSE}{SST}$

$R^2$ $R^2$ $RMSE$

$R^2$ $R^2$ $SSE$ $SSE$ $PRESS$ , которые имеют отношение к вашему вопросу в конце поста.

$SSE$

— Александр Блех
источник

2

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

0

Вы также можете взглянуть на минимизацию максимальной ошибки вместо подгонки по методу наименьших квадратов. Существует достаточно литературы по этому вопросу. Для поиска слова попробуйте "Чебечев", также пишется "Чебышев" полиномов.

— Дэвид Ф Майер
источник

1

Макс является нормой L-бесконечности. Если вы посмотрите на Nutonian / Formulize / Eureqa, у них есть хороший набор функционалов стоимости (формы ошибок), включая межквартильную абсолютную ошибку, ошибку потери шарнира, ROC-AUC и разность знаков. formulize.nutonian.com/documentation/eureqa/general-reference/…

— EngrStudent - Восстановить Монику

0

Похоже, что люди используют квадраты, потому что они позволяют находиться в пределах области линейной алгебры и не затрагивать другие более сложные вещи, такие как выпуклая оптимизация, которая является более мощной, но это приводит к использованию решателей без хороших решений в замкнутой форме.

Также идея из этой математической области, которая имеет название выпуклая оптимизация, не очень распространена.

«... Почему мы заботимся о квадрате предметов. Если честно, мы можем его проанализировать ... Если вы скажете, что оно соответствует Энергии, и они его покупают, то двигайтесь быстрее ....» - https: / /youtu.be/l1X4tOoIHYo?t=1416 , EE263, L8, 23:36.

Также здесь Стивен П. Бойд описывает в 2008 году, что люди используют молоток и adhoc: L20, 01:05:15 - https://youtu.be/qoCa7kMLXNg?t=3916

— bruziuz
источник

0

На примечании стороны:

п (T | Икс, вес, β) знак равно N (T | Y (Икс, вес), β^{- 1})

$p(t|x,w,\beta) = \mathbb{N}(t|y(x,\textbf{w}),\beta^{-1})$

{x, t}

$\{\textbf{x}, \textbf{t}\}$

w

$\textbf{w}$

п (T | Икс, вес, β) знак равно Π_{N знак равно 1}^{N} N (T_{N} | Y ({Икс}_{N}, вес), β^{- 1}),

$p(\textbf{t}|\textbf{x}, \textbf{w}, \beta) = \prod_{n=1}^ {N}\mathbb{N}(t_n|y(x_n, \textbf{w}),\beta^{-1}).$

- \frac{β}{2} \sum_{n = 1}^{N} {y (x_{n}, w) - t_{n}}^{2} + \frac{N}{2} l n β - \frac{N}{2} l n (2 π)

$-\frac{\beta}{2}\sum_{n=1}^{N}\{y(x_n, \textbf{w})-t_n\}^2 + \frac{N}{2}ln\beta-\frac{N}{2}ln(2\pi)$

w

$\textbf{w}$

β

$\beta$

- \frac{1}{2} \sum_{n = 1}^{N} {y (x_{n}, w) - t_{n}}^{2} .

$-\frac{1}{2}\sum_{n=1}^{N}\{y(x_n, \textbf{w})-t_n\}^2.$ Thus the SSE has arisen as a consequence of maximizing likelihood under the assumption of a Gaussian noise distribution.

— timm
источник