Нулевые раздутые распределения, что они на самом деле?


15

Я изо всех сил пытаюсь понять ноль раздутых распределений. Кто они такие? В чем смысл?

Если у меня есть данные со многими нулями, то я мог бы подогнать логистическую регрессию, сначала вычислить вероятность нулей, а затем я мог бы удалить все нули, а затем подобрать регулярную регрессию, используя мой выбор распределения (например, Пуассона).

Тогда кто-то сказал мне: «Эй, используйте раздутое с нулевым раздувом распределение», но, глядя на него, похоже, он не делает ничего по-другому, чем то, что я предложил выше? У него есть регулярный параметр , а затем другой параметр для моделирования вероятности нуля? Это просто делает обе вещи одновременно?μp


3
Почему вы удаляете все нули? Вы можете сделать это вместе, сначала вы рассчитываете вероятность 0 и 1 и используете ее в качестве веса для вашего распределения Пуассона, которое является моделью с нулевым раздуванием (распределение). Прочитайте это, это совершенно ясно. En.wikipedia.org/wiki/Zero-inflated_model
Глубокий север

Ответы:


13

Подгонка логистической регрессии сначала вычисляет вероятность нулей, а затем я могу удалить все нули, а затем подгонять регулярную регрессию, используя мой выбор распределения (например, Пуассона)

Ты абсолютно прав. Это один из способов соответствовать модели с нулевым раздувом (или, как указывает Ахим Цейлис в комментариях, это строго «модель препятствий», которую можно рассматривать как особый случай модели с нулевым раздувом).

Разница между процедурой, которую вы описали, и моделью «все в одном» с нулевым раздуванием заключается в распространении ошибок. Как и все другие двухэтапные процедуры в статистике, общая неопределенность ваших прогнозов на шаге 2 не будет учитывать неопределенность относительно того, должен ли прогноз быть 0 или нет.

Иногда это неизбежное зло. К счастью, в этом нет необходимости. В R вы можете использовать pscl::hurdle()или fitdistrplus::fitdist().


Можете ли вы объяснить это «общая неопределенность ваших прогнозов на шаге 2 не будет учитывать неопределенность относительно того, должен ли прогноз быть 0 или нет»? Когда вы делаете Zip Poisson, вы умножаете вероятность первой части на функцию правдоподобия модели Пуассона, поэтому на шаге 2 будет учитываться неопределенность 0 или 1.
Глубокий север

1
P(Y=1|X=x)=0.510.51

3
@ssdecontrol Обычно это называется не моделью с нулевым раздуванием, а моделью с препятствиями (например, pscl::hurdle()). И чтобы получить правильное соответствие, распределение, используемое для данных без нулей, должно быть усечено нулями (или вообще не приводить к каким-либо нулям). Смотрите мой ответ для более подробной информации.
Ахим Цейлейс

9

Основная идея, которую вы описываете, является правильным подходом, и ее часто называют моделью препятствий (или моделью из двух частей), а не моделью с нулевым раздуванием .

Однако крайне важно, чтобы модель для ненулевых данных учитывала удаление нулей. Если вы подгоните модель Пуассона к данным без нулей, это почти наверняка приведет к плохому подгонке, потому что распределение Пуассона всегда имеет положительную вероятность для нуля. Естественной альтернативой является использование усеченного по нулю распределения Пуассона, которое является классическим подходом к регрессии препятствий для данных подсчета.

Основное различие между моделями с нулевым раздувом и моделями препятствий заключается в том, какая вероятность моделируется в двоичной части регрессии. Для моделей с препятствиями это просто вероятность нуля против ненулевого значения. В моделях с нулевым раздувом это вероятность иметь избыточный ноль , т. Е. Вероятность нулевого уровня, которая не вызвана не раздутым распределением (например, Пуассоном).

Для обсуждения моделей как с барьером, так и с нулевой инфляцией для данных подсчета в R см. Нашу рукопись, опубликованную в JSS, а также отправленную в виде виньетки к psclпакету: http://dx.doi.org/10.18637/jss.v027.i08


7

То, что сказал ssdecontrol, очень правильно. Но я бы хотел добавить несколько центов к обсуждению.

Я только что посмотрел лекцию Ричарда МакЭлрича о моделях с нулевым надуванием для подсчета данных на YouTube.

Имеет смысл оценить p, контролируя переменные, объясняющие скорость чисто пуассоновской модели, особенно если учесть, что вероятность возникновения наблюдаемого нуля из распределения Пуассона не равна 100%.

Нулевые завышенные распределения как многоуровневая модель

Это также имеет смысл, когда вы рассматриваете параметры модели, так как в итоге вы получите две переменные для оценки, p и скорость модели Пуассона, и два уравнения, случай, когда счет равен нулю, и случай, когда счет отличается от нуль.

Источник изображения: Статистическое переосмысление - Байесовский курс с примерами на R и Stan. Автор Richard McElreath

Редактировать : опечатка


Ссылки на учебные материалы приветствуются ... но как это отвечает на поставленный вопрос? Это похоже на комментарий, опубликованный как ответ ...
RTbecard
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.