Я думаю, что вы в основном ударили ногтем по голове в вопросе, но я посмотрю, смогу ли я что-нибудь добавить. Я собираюсь ответить на это немного окольным путем ...
В области робастной статистики рассматривается вопрос о том, что делать, если предположение Гаусса не выполняется (в том смысле, что существуют выбросы):
часто предполагается, что ошибки данных обычно распределяются, по крайней мере приблизительно, или что на центральную предельную теорему можно положиться для получения нормально распределенных оценок. К сожалению, когда в данных есть выбросы, классические методы часто имеют очень низкую производительность
Они были применены и в ML, например, в Mika el al. (2001) Подход математического программирования к алгоритму ядра Фишера , они описывают, как робастная потеря Хубера может использоваться с KDFA (наряду с другими функциями потерь). Конечно, это потеря классификации, но KFDA тесно связана с машиной векторов релевантности (см. Раздел 4 статьи Мики).
Как следует в этом вопросе, существует тесная связь между функциями потерь и моделями ошибок байесовских (см здесь для обсуждения).
Однако обычно бывает так, что, как только вы начинаете включать «причудливые» функции потерь, оптимизация становится сложной (обратите внимание, что это происходит и в байесовском мире). Поэтому во многих случаях люди прибегают к стандартным функциям потерь, которые легко оптимизировать, и вместо этого проводят дополнительную предварительную обработку, чтобы убедиться, что данные соответствуют модели.
Другой момент, который вы упомянули, заключается в том, что CLT применяется только к образцам с IID. Это правда, но тогда предположения (и сопутствующий анализ) большинства алгоритмов одинаковы. Когда вы начинаете просматривать данные, не относящиеся к IID, все становится намного сложнее. Один пример - если есть временная зависимость, и в этом случае обычно подход состоит в том, чтобы предполагать, что зависимость охватывает только определенное окно, и поэтому выборки можно рассматривать приблизительно как IID вне этого окна (см., Например, эту блестящую, но прочную бумагу Chromatic PAC). -Bayes Bounds для данных, не относящихся к IID: приложения для ранжирования и стационарных процессов β-смешивания ), после чего можно применять обычный анализ.
Так что, да, это сводится частично к удобству, а отчасти потому, что в реальном мире большинство ошибок выглядят (примерно) гауссовски. Конечно, всегда нужно быть осторожным при взгляде на новую проблему, чтобы убедиться, что предположения не нарушены.