Почему мы предполагаем, что ошибка обычно распространяется?

Интересно, почему мы используем предположение Гаусса при моделировании ошибки. В курсе ML Стэнфорда профессор Нг описывает его в основном двумя способами:

Это математически удобно. (Это связано с подходом наименьших квадратов и легко решается псевдообратным)
Из-за центральной предельной теоремы мы можем предположить, что на процесс влияют многие основные факты, и сумма этих отдельных ошибок будет вести себя как в нормальном распределении с нулевым средним. На практике это кажется так.

Я заинтересован во второй части на самом деле. Насколько я знаю, центральная предельная теорема работает для семплов iid, но мы не можем гарантировать, что базовые семплы будут iid.

Есть ли у вас какие-либо идеи по поводу гауссовского предположения об ошибке?

regression normality-assumption pac-learning

— Petrichor
источник

О какой обстановке ты говоришь? Классификация, регресс или что-то более общее?

— TDC

Я задал вопрос для общего случая. Большинство историй начинаются с предположения об ошибке Гаусса. Но лично меня интересуют матричные факторизации и линейные модельные решения (так сказать, регрессия).

— Петричор

Соответствующий: stats.stackexchange.com/questions/120776/…

— kjetil b halvorsen

Я думаю, что вы в основном ударили ногтем по голове в вопросе, но я посмотрю, смогу ли я что-нибудь добавить. Я собираюсь ответить на это немного окольным путем ...

В области робастной статистики рассматривается вопрос о том, что делать, если предположение Гаусса не выполняется (в том смысле, что существуют выбросы):

часто предполагается, что ошибки данных обычно распределяются, по крайней мере приблизительно, или что на центральную предельную теорему можно положиться для получения нормально распределенных оценок. К сожалению, когда в данных есть выбросы, классические методы часто имеют очень низкую производительность

Они были применены и в ML, например, в Mika el al. (2001) Подход математического программирования к алгоритму ядра Фишера , они описывают, как робастная потеря Хубера может использоваться с KDFA (наряду с другими функциями потерь). Конечно, это потеря классификации, но KFDA тесно связана с машиной векторов релевантности (см. Раздел 4 статьи Мики).

Как следует в этом вопросе, существует тесная связь между функциями потерь и моделями ошибок байесовских (см здесь для обсуждения).

Однако обычно бывает так, что, как только вы начинаете включать «причудливые» функции потерь, оптимизация становится сложной (обратите внимание, что это происходит и в байесовском мире). Поэтому во многих случаях люди прибегают к стандартным функциям потерь, которые легко оптимизировать, и вместо этого проводят дополнительную предварительную обработку, чтобы убедиться, что данные соответствуют модели.

Другой момент, который вы упомянули, заключается в том, что CLT применяется только к образцам с IID. Это правда, но тогда предположения (и сопутствующий анализ) большинства алгоритмов одинаковы. Когда вы начинаете просматривать данные, не относящиеся к IID, все становится намного сложнее. Один пример - если есть временная зависимость, и в этом случае обычно подход состоит в том, чтобы предполагать, что зависимость охватывает только определенное окно, и поэтому выборки можно рассматривать приблизительно как IID вне этого окна (см., Например, эту блестящую, но прочную бумагу Chromatic PAC). -Bayes Bounds для данных, не относящихся к IID: приложения для ранжирования и стационарных процессов β-смешивания ), после чего можно применять обычный анализ.

Так что, да, это сводится частично к удобству, а отчасти потому, что в реальном мире большинство ошибок выглядят (примерно) гауссовски. Конечно, всегда нужно быть осторожным при взгляде на новую проблему, чтобы убедиться, что предположения не нарушены.

— TDC
источник

+1 Большое спасибо, особенно за упоминание о надежной и не надежной статистике. Я заметил, что медиана и среднее значение альфа-обрезки обычно лучше, чем среднее на практике, но я не знал теорию, стоящую за ними.

— Петричор

Другой элемент удобства, связанный с нормально распределенными данными, состоит в том, что корреляция 0 подразумевает независимость.

— AdamO

Комментарий о IID-ности не совсем верен. Существуют (несколько) очень общие теоремы о центральном пределе, которые применяются, когда результаты независимы, но не распределены одинаково; см., например, Линдеберг CLT. Есть также результаты CLT, которые даже не нуждаются в независимости; например, они могут возникнуть из взаимозаменяемых наблюдений.

— Гость