Почему именно бета-регрессия не может иметь дело с 0 и 1 в переменной ответа?

Бета-регрессия (т. Е. GLM с бета-распределением и, как правило, функцией логит-линка) часто рекомендуется для работы с зависимостью, называемой зависимой переменной, принимающей значения от 0 до 1, такие как дроби, соотношения или вероятности: регрессия для результата (соотношение или дробь) между 0 и 1 .

Однако всегда утверждается, что бета-регрессия не может использоваться, как только переменная отклика равна 0 или 1 хотя бы один раз. Если это так, нужно либо использовать бета-модель с нулевым / единичным инфляцией, либо провести некоторую трансформацию ответа и т. Д. Бета-регрессия данных о пропорциях, включая 1 и 0 .

Мой вопрос: какое свойство бета-распределения не позволяет бета-регрессии иметь дело с точными нулями и единицами и почему?

Я предполагаю, что и не поддерживают бета-дистрибутив. Но для всех параметров формы и , как ноль и один находятся в поддержке бета - распределения, это только для небольших параметров формы , что распределение обращается в бесконечность в одной или обеих сторон. И, возможно, пример данных таков, что и обеспечивающие наилучшее соответствие, окажутся выше $0$ $1$ $\alpha>1$ $\beta>1$ $\alpha$ $\beta$ $1$ .

Означает ли это, что в некоторых случаях один можно использовать бета-регрессию даже с нулями / единицами?

Конечно, даже когда 0 и 1 поддерживают бета-распределение, вероятность наблюдения точно 0 или 1 равна нулю. Но так же как и вероятность наблюдать любой другой заданный счетный набор значений, так что это не может быть проблемой, не так ли? (См. Этот комментарий @Glen_b).

$\hskip{8em}$

В контексте бета-регрессии бета-распределение параметризовано по-разному, но при оно все равно должно быть четко определено на для всех . $\phi=\alpha+\beta>2$ $[0,1]$ $\mu$

— амеба говорит восстановить монику
источник

Интересный вопрос! У меня нет ответа, кроме того, что уже высказал Кевин Райт. Я предполагаю, что точные нули и единицы в вероятностях являются патологическими случаями (как в логистической регрессии), поэтому не так интересны, так как они не должны происходить.

— Тим

@Tim Ну, я не знаю, должно ли это происходить или не должно происходить, но это случается довольно часто, иначе люди не задавали бы вопросы о том, как обращаться с 0 и 1 в бета-регрессии, не писали бы статьи о 0- и-1 завышенные бета-модели и т. д. В любом случае, я все еще надеюсь на более подробный ответ, чем на Кевина. Следует хотя бы объяснить, как возникают эти термины в логарифмической вероятности.

— говорит амеба, восстанови Монику

Обновление: это возможно потому, что если 0 и 1 находятся в поддержке, то PDF в этих точках равен нулю, что означает, что вероятность наблюдения этих значений равна нулю. Я все еще хотел бы видеть ответ, объясняющий это тщательно.

— говорит амеба, восстанови Монику

Итак, какое распределение следует использовать тогда, когда переменная ответа принимает значения, скажем, в

[0, \infty)

$[0, \infty)$

— Смущен

Ответы:

Потому что логоподобие содержит как и , которые не ограничены, когда или . См. Уравнение (4) Smithson & Verkuilen, « Лучшая соковыжималка для лимона? Регрессия максимального правдоподобия с бета-распределенными зависимыми переменными » (прямая ссылка на PDF ). $\log(x)$ $\log(1-x)$ $x=0$ $x=1$

— Кевин Райт
источник

Благодарю. Вот прямая PDF-ссылка на статью . Я вижу, что уравнение (4) сломается, как только

или

, но я все еще не понимаю, почему это происходит в общей схеме вещей.

y_{i} = 0

$y_i=0$

y_{i} = 1

$y_i=1$

— говорит амеба, восстанови Монику

(+1) Амеба, просто посмотрите в pdf: для каждого бета-распределения плотности в

равны

или

. В любом случае вероятность регистрации будет неопределенной. Эквивалентно, как только есть один ответ

или

, все значения вероятности могут быть только нулем, бесконечностью или неопределенными, и будет нетривиальный набор бета-параметров, для которых реализуется минимальное значение вероятности. Таким образом, практический расчет исключается, и модель не может быть идентифицирована (в строгом смысле).

0

$0$

1

$1$

0

$0$

+ \infty

$+\infty$

0

$0$

1

$1$

— uuber

0

$0$

1

$1$

0

$0$

0.5

$0.5$

α = β = 2

$\alpha=\beta=2$

0.5

$0.5$

0

$0$

0.5

$0.5$

0

$0$

@amoeba Вероятность зависит от плотности вероятности , а не от самой вероятности. Иногда можно избежать этой проблемы, рассматривая каждое наблюдение как включающее вероятность крошечного, но конечного (не бесконечно малого) интервала (определяемого, например , точностью измерения), или сворачивая бета-распределения с очень узким гауссианом ( который устраняет нулевую и бесконечную плотности).

— whuber

$log(x)$ $log(1-x)$ , я постараюсь дополнить ответ на вопрос, пытаясь сформулировать основную причину, по которой это происходит.

$p$ $N$

В результате, в моем понимании бета-регрессии, 0 и 1 будут интуитивно соответствовать (бесконечным) точным результатам.

— meduz
источник