Потому что допущение нормальных ошибок - это то же самое, что допущение, что больших ошибок не возникает! Нормальное распределение имеет настолько легкие хвосты, что ошибки за пределами стандартных отклонения имеют очень низкую вероятность, а ошибки за пределами стандартных отклонений фактически невозможны. На практике это предположение редко соответствует действительности. При анализе небольших, аккуратных наборов данных из хорошо спроектированных экспериментов это может не иметь большого значения, если мы проведем хороший анализ остатков. С данными более низкого качества это может иметь гораздо большее значение.±3±6
При использовании методов, основанных на правдоподобии (или байесовских методах), эффект этой нормальности (как уже было сказано выше, фактически это предположение «нет больших ошибок») заключается в том, чтобы сделать вывод очень мало надежным. На результаты анализа слишком сильно влияют большие ошибки! Это должно быть так, поскольку допущение «нет больших ошибок» вынуждает наши методы интерпретировать большие ошибки как маленькие ошибки, и это может произойти только путем перемещения параметра среднего значения, чтобы уменьшить все ошибки. Один из способов избежать этого - использовать так называемые «надежные методы», см. Http://web.archive.org/web/20160611192739/http://www.stats.ox.ac.uk/pub/StatMeth/Robust. .pdf
Но Эндрю Гельман не пойдет на это, поскольку надежные методы обычно представлены весьма небайесовским способом. Использование t-распределенных ошибок в вероятностных / байесовских моделях - это другой способ получения надежных методов, поскольку -распределение имеет более тяжелые хвосты, чем нормальное, поэтому допускает большую долю больших ошибок. Параметр количества степеней свободы следует фиксировать заранее, а не оценивать по данным, поскольку такая оценка разрушит свойства робастности метода (*) (это также очень сложная проблема, функция вероятности для , число степеней свободы может быть неограниченным, что приводит к очень неэффективным (даже непоследовательным) оценкам).tν
Если, например, вы думаете (боитесь), что 1 из 10 наблюдений может быть «большими ошибками» (более 3 с.д.), то вы можете использовать распределение с 2 степенями свободы, увеличивая это число, если доля больших ошибок считается меньшей.t
Я должен отметить, что то, что я сказал выше, относится к моделям с независимыми распределенными ошибками. Также были предложения о многомерном распределении (которое не является независимым) как распределение ошибок. Это propsal сильно критиковали в газете «Новое платье короля: критический анализ многомерный регрессионной модели» Т. С. Бреуша, JC Робертсон и AH Welsh, в Statistica Neerlandica (1997) Vol. 51, № 3, с. 269-286, где они показывают, что многомерное распределение ошибок эмпирически неотличимо от нормального. Но эта критика не влияет на независимую модели. ttttt
(*) Одно упоминание об этом - MASS Venables & Ripley - Современная прикладная статистика с S (на странице 110 в 4-м издании).