Разве нормальное распределение не допускает отрицательных значений?
Верный. Он также не имеет верхней границы.
В одной части моего учебника говорится, что нормальное распределение может быть полезным для моделирования результатов экзаменов.
Несмотря на предыдущие заявления, тем не менее, иногда это так. Если у вас есть много компонентов для теста, не слишком тесно связанных (например, так что вы по сути не один и тот же вопрос десятки раз, и при этом каждая часть не требует правильного ответа на предыдущую часть), и не очень простая или очень сложная ( так что большинство меток находится где-то около середины), то метки часто могут быть достаточно хорошо аппроксимированы нормальным распределением; часто достаточно хорошо, чтобы типичные анализы не вызывали беспокойства.
Мы точно знаем, что они ненормальные , но это не является проблемой автоматически, если поведение используемых нами процедур достаточно близко к тому, что должно быть для наших целей (например, стандартные ошибки, доверительные интервалы, уровни значимости). и власть - в зависимости от того, что нужно - делать то, что мы ожидаем от них)
В следующей части спрашивается, какое распределение будет подходящим для моделирования страхового случая. На этот раз он сказал, что соответствующие распределения будут гамма или инверсным гауссовым, потому что они непрерывны с только положительными значениями.
Да, но более того - они имеют тенденцию к сильному перекосу, и изменчивость имеет тенденцию увеличиваться, когда среднее значение увеличивается.
Вот пример распределения размера претензий для заявок на транспортные средства:
https://ars.els-cdn.com/content/image/1-s2.0-S0167668715303358-gr5.jpg
(Рис. 5 от Garrido, Genest & Schulz (2016) "Обобщенные линейные модели для зависимой частоты и серьезности страховых требований", Страхование: математика и экономика, том 70, сентябрь, p205-215. Https : //www.sciencedirect. ru / science / article / pii / S0167668715303358 )
Это показывает типичный правосторонний и тяжелый правый хвост. Однако мы должны быть очень осторожны, потому что это предельное распределение, и мы пишем модель для условного распределения, которая обычно будет гораздо менее асимметричной (предельное распределение мы рассмотрим, если просто сделать гистограмму размеров утверждений, представляющую собой смесь из этих условных распределений). Тем не менее, как правило, это тот случай, когда мы смотрим на размер претензии в подгруппах предикторов (возможно, по категориям непрерывных переменных), что распределение по-прежнему сильно наклонено вправо и довольно тяжелое с правой стороны, предполагая, что нечто вроде гамма-модели * вероятно, будет гораздо более подходящим, чем модель Гаусса.
* может быть любое количество других распределений, которые были бы более подходящими, чем гауссовский - обратный гауссовский - другой выбор - хотя и менее распространенный; Логнормальные модели или модели Вейбулла, хотя они и не являются GLM в их нынешнем виде, также могут быть весьма полезными.
[Редко бывает, что любое из этих распределений является почти идеальным описанием; они являются неточными приближениями, но во многих случаях достаточно хороши, так что анализ полезен и имеет свойства, близкие к желаемым.]
Ну, я считаю, что результаты экзаменов также будут непрерывными и будут иметь только положительные значения, так почему бы нам использовать там нормальное распределение?
Потому что (в условиях, которые я упоминал ранее - множество компонентов, не слишком зависимых, не жестких или простых), распределение имеет тенденцию быть достаточно близким к симметричному, унимодальному и не с тяжелыми хвостами.