Сверхдисперсия в логистической регрессии

Я пытаюсь понять концепцию чрезмерной дисперсии в логистической регрессии. Я читал, что избыточная дисперсия - это когда наблюдаемая дисперсия переменной отклика больше, чем можно было бы ожидать от биномиального распределения.

Но если биномиальная переменная может иметь только два значения (1/0), как она может иметь среднее значение и дисперсию?

Я в порядке с вычислением среднего значения и дисперсии успехов от x числа испытаний Бернулли. Но я не могу обернуть голову вокруг понятия среднего значения и дисперсии переменной, которая может иметь только два значения.

Может ли кто-нибудь предоставить интуитивно понятный обзор:

Понятие среднего значения и дисперсии в переменной, которая может иметь только два значения
Концепция избыточной дисперсии в переменной, которая может иметь только два значения

— Лучиано
источник

Добавьте 20 значений , где 10 - это а 10 - . Вы можете разделить это на 20? Вы можете вычислить SD ?

y

$y$

0

$0$

1

$1$

y

$y$

— Sycorax говорит восстановить Monica

Хорошо сказано, поэтому я считаю, что это среднее = 0,5, стандартное отклонение = 0,11.

— Лучано

Скажем, у моей переменной ответа было 100 успешных и 5 неудачных. Это может быть чрезмерно рассеянным?

— Лучано

luciano, вам нужно больше, чем одна реализация эксперимента, чтобы определить, не слишком ли он рассеян.

— Underminer

Ответы:

Биноминальная случайная величина с испытаниями и вероятностью успеха может принимать более двух значений. Биноминальная случайная величина представляет количество успехов в этих испытаниях и может фактически принимать различных значений ( ). Таким образом, если дисперсия этого распределения больше, чем можно было бы ожидать при биномиальных допущениях (например, возможно, имеются избыточные нули), это случай избыточной дисперсии. $N$ $p$ $N$ $N+1$ $0,1,2,3,...,N$

Чрезмерная дисперсия не имеет смысла для случайной величины Бернулли ( ) $N = 1$

В контексте кривой логистической регрессии вы можете рассматривать «маленький срез» или группирование по узкому диапазону значений предикторов как реализацию биномиального эксперимента (возможно, у нас есть 10 точек в срезе с определенным числом успехи и неудачи). Несмотря на то, что у нас нет нескольких испытаний по каждому значению предиктора, и мы смотрим на пропорции, а не на необработанные значения, мы все равно ожидаем, что доля каждого из этих «срезов» будет близка к кривой. Если эти «срезы» имеют тенденцию находиться далеко от кривой, то распределение слишком велико. Таким образом, группируя наблюдения, вы создаете реализации биномиальных случайных величин, а не просматриваете данные 0/1 по отдельности.

Пример ниже взят из другого вопроса на этом сайте. Допустим, синие линии представляют ожидаемую пропорцию в диапазоне переменных предиктора. Синие клетки указывают на наблюдаемые случаи (в данном случае школы). Это дает графическое представление о том, как может выглядеть избыточная дисперсия . Обратите внимание, что существуют недостатки в интерпретации ячеек приведенного ниже графика, но это дает представление о том, как может проявиться избыточная дисперсия.

— Underminer
источник

Но меня интересует чрезмерная дисперсия в контексте логистической регрессии. Для каждого значения предикторной переменной в логистической регрессии нет n испытаний, есть только одно испытание. И результатом этого одного испытания является либо успех, либо неудача

— Luciano

Я просто добавил параграф, чтобы рассмотреть интуицию, лежащую в основе чрезмерной дисперсии в контексте линейной регрессии.

— Underminer

Подрыватель, я пытаюсь представить, что вы подразумеваете под этим предложением: «Если эти« срезы »имеют тенденцию быть далеко от кривой, то распределение слишком велико». Вот что, я думаю, вы имеете в виду: на срезе кривой, где, скажем, вероятность успеха 0,1-0,3, есть много успехов, а на срезе кривой, где, скажем, вероятность успеха 0,7-0,9, есть много неудач Это то, что вы имеете в виду, и будет ли это представлять чрезмерную дисперсию?

— Лучано

@luciano Это правильная идея. Но имейте в виду, что должен быть баланс «срезов», которые находятся слишком высоко и слишком далеко под кривой, чтобы в первую очередь произошло совпадение. Поэтому может быть более реалистичным сказать, что срез около 0,7 имеет слишком много успехов (возможно, 100%), а следующий срез около 0,75 имеет слишком мало (50%), тогда как 0,80 имеет слишком много (100%) и т. Д. наблюдаются большие различия, чем можно было бы ожидать.

— Подрыватель

Я понял, хорошо объяснил

— Luciano

Как уже отмечалось другими, избыточная дисперсия не применяется в случае переменной Бернулли (0/1), поскольку в этом случае среднее обязательно определяет дисперсию. В контексте логистической регрессии это означает, что если ваш результат является двоичным, вы не можете оценить параметр дисперсии. (NB. Это не означает, что вы можете игнорировать потенциальную корреляцию между наблюдениями только потому, что ваш результат является двоичным!)

Если, с другой стороны, ваш результат представляет собой набор пропорций, то вы можете оценить параметр дисперсии (который, хотя часто больше единицы, может быть меньше единицы), разделив статистику хи-квадрат Пирсона (или отклонение ) по остаточным степеням свободы.

Помните, что логистическая регрессия с чисто бинарным результатом является лишь частным случаем более общей модели логистической регрессии, в которой биномиальный индекс может превышать единицу (и может варьироваться в зависимости от наблюдения). Таким образом, вопрос о том, подходит ли вам модель логистической регрессии или нет, не связан с вопросом о том, являются ли ваши данные чрезмерно рассредоточенными.

— Фил Шумм
источник