Биноминальная случайная величина с испытаниями и вероятностью успеха может принимать более двух значений. Биноминальная случайная величина представляет количество успехов в этих испытаниях и может фактически принимать различных значений ( ). Таким образом, если дисперсия этого распределения больше, чем можно было бы ожидать при биномиальных допущениях (например, возможно, имеются избыточные нули), это случай избыточной дисперсии. р Н Н + 1 0 , 1 , 2 , 3 , . , , , NNpNN+10,1,2,3,...,N
Чрезмерная дисперсия не имеет смысла для случайной величины Бернулли ( )N=1
В контексте кривой логистической регрессии вы можете рассматривать «маленький срез» или группирование по узкому диапазону значений предикторов как реализацию биномиального эксперимента (возможно, у нас есть 10 точек в срезе с определенным числом успехи и неудачи). Несмотря на то, что у нас нет нескольких испытаний по каждому значению предиктора, и мы смотрим на пропорции, а не на необработанные значения, мы все равно ожидаем, что доля каждого из этих «срезов» будет близка к кривой. Если эти «срезы» имеют тенденцию находиться далеко от кривой, то распределение слишком велико. Таким образом, группируя наблюдения, вы создаете реализации биномиальных случайных величин, а не просматриваете данные 0/1 по отдельности.
Пример ниже взят из другого вопроса на этом сайте. Допустим, синие линии представляют ожидаемую пропорцию в диапазоне переменных предиктора. Синие клетки указывают на наблюдаемые случаи (в данном случае школы). Это дает графическое представление о том, как может выглядеть избыточная дисперсия . Обратите внимание, что существуют недостатки в интерпретации ячеек приведенного ниже графика, но это дает представление о том, как может проявиться избыточная дисперсия.