В чем разница между моделями с нулевой раздувкой и препятствиями?


81

Интересно, есть ли четкая разница между так называемыми распределениями с нулевым раздуванием (моделями) и так называемыми распределениями с барьером в нуле (моделями)? Термины встречаются в литературе довольно часто, и я подозреваю, что они не совпадают, но не могли бы вы объяснить мне разницу в простых терминах?

Ответы:


80

Спасибо за интересный вопрос!

Разница: одно ограничение стандартных моделей подсчета состоит в том, что предполагается, что нули и ненулевые (положительные) происходят из одного и того же процесса генерирования данных. В случае моделей препятствий эти два процесса не обязательно должны быть одинаковыми. Основная идея состоит в том, что вероятность Бернулли управляет двоичным результатом того, имеет ли переменная подсчета нулевую или положительную реализацию. Если реализация является положительной, препятствие преодолевается, и условное распределение положительных значений определяется моделью данных с усеченным при нулевом значении. С нулевыми моделямипеременная отклика моделируется как смесь распределения Бернулли (или назовите его точечной массой в нуле) и распределения Пуассона (или любого другого распределения числа, поддерживаемого на неотрицательных целых числах). Для получения более подробной информации и формул см., Например, Gurmu and Trivedi (2011) и Dalrymple, Hudson and Ford (2003).

Пример: модели препятствий могут быть мотивированы последовательными процессами принятия решений, с которыми сталкиваются отдельные лица. Сначала вы решаете, нужно ли вам что-то покупать, а затем вы выбираете количество этого чего-то (что должно быть положительным). Когда вам разрешено (или вы можете потенциально) ничего не покупать после вашего решения о покупке чего-либо, это пример ситуации, когда уместна модель с нулевым уровнем инфляции. Нули могут поступать из двух источников: а) нет решения купить; б) хотел купить, но в итоге ничего не купил (например, нет в наличии).

Бета: Модель препятствий является частным случаем модели, состоящей из двух частей, описанной в главе 16 Frees (2011). Там мы увидим, что для моделей, состоящих из двух частей, объем используемой медицинской помощи может быть как непрерывным, так и переменным числом. Таким образом, то, что в литературе до некоторой степени вводило в заблуждение термин «бета-распределение с нулевым раздуванием», на самом деле относится к классу двухчастных распределений и моделей (так распространенных в актуарной науке), что согласуется с приведенным выше определением модели препятствий , В этой превосходной книге обсуждались модели с нулевым раздувом в разделе 12.4.1 и модели препятствий в разделе 12.4.2 с формулами и примерами из актуарных приложений.

История: модели Пуассона с нулевой раздувкой (ZIP) без ковариат имеют долгую историю (см., Например, Johnson and Kotz, 1969). Общая форма регрессионных моделей ZIP, включающих ковариаты, принадлежит Ламберту (1992). Модели препятствий были впервые предложены канадским статистиком Крэггом (1971), а позднее Муллахи (1986) разработал их. Вы также можете рассмотреть Croston (1972), где положительные геометрические числа используются вместе с процессом Бернулли для описания целочисленного процесса, в котором преобладают нули.

R: Наконец, если вы используете R, есть пакет pscl для «Классов и методов для R, разработанный в вычислительной лаборатории политической науки» Саймона Джекмана, содержащий функции барьера () и zeroinfl () Ахима Цейлиса.

Следующие ссылки были рассмотрены для получения вышеупомянутого:

  • Гурму С. и Триведи П. К. Избыточные нули в моделях счета для поездок на отдых Журнал деловой и экономической статистики, 1996, 14, 469-477
  • Джонсон Н., Коцц С. Распределения в статистике: дискретные распределения. 1969, Хоутон МиЗин, Бостон
  • Ламберт Д., Нулевой инфляцией Пуассона с приложением к дефектам в производстве. Technometrics, 1992, 34 (1), 1–14.
  • Крэгг, Дж. Г. Некоторые статистические модели для ограниченных зависимых переменных с применением к спросу на товары длительного пользования Econometrica, 1971, 39, 829-844
  • Муллахи Дж. Спецификация и тестирование некоторых модифицированных моделей данных подсчета. Журнал эконометрики, 1986, 33, 341-365.
  • Frees, EW регрессионное моделирование с актуарными и финансовыми приложениями Cambridge University Press, 2011
  • Dalrymple, ML; Хадсон, Иллинойс и Форд, RPK-модели конечных смесей, модели Пуассона и Хердла с нулевым раздувом и их применение в вычислительной статистике SIDS и анализе данных, 2003, 41, 491-504
  • Кростон, JD Прогнозирование и управление запасами для прерывистых требований Оперативные исследования Ежеквартально, 1972, 23, 289-303

2
Является ли модель с препятствиями действительно самой моделью? Или это две последовательные и отдельно оцененные модели? Представьте себе моделирование конкурентоспособности предвыборных гонок, взглянув на показатели конкурентоспособности (1 - предел победы). Это ограничено [0, 1), потому что нет связей (например, 1). Таким образом, мы сначала делаем логистическую регрессию для анализа 0 против (0, 1). Затем мы проводим бета-регрессию для анализа (0, 1) случаев. Кажется, это две совершенно разные модели, со своими коэффициентами и отдельной оценкой? Или я что-то упустил?
Марк Уайт

Например, вы упоминаете в своем ответе, что нули могут быть вызваны (а) решением не покупать автомобиль или (б) желанием, но его нет в наличии. Кажется, что модель препятствий не сможет провести различие между ними, поскольку они выполняются последовательно ...?
Марк Уайт

Рассмотрим другой пример: ответы [1, 7], как и в традиционной шкале Лайкерта, с огромным потолочным эффектом 7. Можно создать модель препятствий, которая будет логистической регрессией [1, 7) против 7, а затем регрессией Тобита. для всех случаев, когда наблюдаемые ответы <7. Опять же, мы получаем два набора коэффициентов регрессии, и они оцениваются отдельно. Кажется, мы не моделируем эти процессы совместно, а в двух совершенно разных моделях? Итак, является ли препятствие на самом деле моделью или просто процессом создания двух различных типов обобщенных линейных моделей подряд?
Марк Уайт

Я расширил этот вопрос в своем собственном сообщении здесь: stats.stackexchange.com/questions/320924/…
Марк Уайт

47

Модели с барьерами предполагают, что существует только один процесс, с помощью которого можно получить ноль, в то время как модели с нулевым раздувом предполагают, что есть 2 различных процесса, которые могут производить ноль.

Модели барьеров предполагают 2 типа субъектов: (1) те, кто никогда не испытывает результат, и (2) те, кто всегда испытывает результат, по крайней мере, один раз. Модели с нулевым раздуванием концептуализируют субъектов как (1) тех, кто никогда не испытывает результат, и (2) тех, кто может испытать результат, но не всегда.

Проще говоря: модели как с нулевым уровнем, так и с препятствиями описаны в двух частях.

Первая - это часть включения / выключения, которая представляет собой двоичный процесс. Система "выключена" с вероятностью и "включена" с вероятностью . (Здесь называется вероятностью инфляции.) Когда система выключена, возможны только нулевые отсчеты. Эта часть одинакова для моделей с нулевым давлением и препятствиями.π1ππ

Вторая часть - это счетная часть, которая происходит, когда система включена. Это то, где модели с нулевым раздувом и препятствия различаются. В моделях с нулевым раздувом количество может быть равно нулю. В моделях с барьерами они должны быть ненулевыми. В этой части модели с нулевым раздувом используют «обычное» дискретное распределение вероятностей, в то время как модели с барьерами используют усеченную до нуля функцию дискретного распределения вероятностей.

Пример модели с препятствиями: производитель автомобилей хочет сравнить две программы контроля качества для своих автомобилей. Он будет сравнивать их на основе количества предъявленных гарантийных претензий. Для каждой программы отслеживается набор случайно выбранных клиентов в течение 1 года и подсчитывается количество заявленных ими гарантийных претензий. Вероятности инфляции для каждой из двух программ затем сравниваются. Состояние «выключено» - это «подано нулевое требование», а состояние «включено» - «подано хотя бы одно требование».

Пример модели с нулевым давлением: в том же исследовании, что и выше, исследователи выяснили, что некоторые ремонты автомобилей были устранены без подачи претензии по гарантии. Таким образом, нули представляют собой смесь отсутствия проблем контроля качества, а также наличия проблем контроля качества, которые не связаны с претензиями по гарантии. Состояние «выключено» означает «подал нулевые претензии», а состояние «включено» означает «подал хотя бы одну претензию ИЛИ ремонт был исправлен без подачи претензии».

Смотрите здесь для исследования, в котором оба типа моделей были применены к одному и тому же набору данных.


Спасибо за подробный ответ. Хотели бы вы узнать, какая терминология подходит для стандартного бета-распространения с добавленными нулями? Используя ваше определение моделей с нулевым раздувом, очевидно, что существует один источник нулей, поэтому его нельзя назвать «раздутое до нуля» ... См. Это обсуждение stats.stackexchange.com/questions/81343/…
skulker

2
Мне нравится «бета-дистрибуция с нулевым добавлением», предложенная @Hibernating
Даррен Джеймс

10

в ZIP-модели ~ 0 с вероятностью и ~ распределение Пуассона ( ) с вероятностью , таким образом, ZIP-модель является смешанной моделью с 2 компонентами и: yiπyiλ1π

Pr(yj=0)=π+(1π)eλ
Pr(yj=xi)=(1π)λxieλxi!,xi1

и в модели препятствий ~ 0 с вероятностью и ~ усеченное распределение Пуассона ( ) с вероятностью , и: yiπyiλ1π

Pr(yj=0)=π
Pr(yj=xi)=(1π)1eλ(λxieλxi!),xi1

4

Что касается моделей препятствий, вот цитата из достижений в области математического и статистического моделирования (Arnold, Balakrishnan, Sarabia, & Mínguez, 2008):

Модель препятствий характеризуется процессом ниже препятствия и тем выше. Очевидно, что наиболее широко используемая модель препятствий - это та, которая устанавливает препятствие на ноль. Формально модель с барьером в нуле выражается как: для дляP(Ni=ni)=f1(0)ni=0 P(Ni=ni)=1f1(0)1f2(0)f2(ni)=ϕf2(ni)ni=1,2,...

Переменная может быть интерпретирована как вероятность преодоления препятствия, или, точнее, в случае страхования, вероятность сообщить хотя бы одну претензию.ϕ

Что касается моделей с нулевой раздувкой, Википедия говорит :

Модель с нулевым раздувом - это статистическая модель, основанная на распределении вероятностей с нулевым раздувом, то есть распределении, которое позволяет проводить частые наблюдения с нулевым значением.

Модель Пуассона с нулевым раздувом касается случайного события, содержащего избыточные данные нулевого счета в единицу времени. Например, число претензий к страховой компании со стороны любого конкретного застрахованного лица почти всегда равно нулю, в противном случае существенные убытки могут привести к банкротству страховой компании. В модели Пуассона с нулевой раздувкой (ZIP) используются два компонента, которые соответствуют двум процессам генерации нуля. Первый процесс управляется двоичным распределением, которое генерирует структурные нули. Второй процесс определяется распределением Пуассона, которое генерирует счетчики, некоторые из которых могут быть равны нулю. Два компонента модели описываются следующим образом:[1]

Pr(yj=0)=π+(1π)eλ
Pr(yj=hi)=(1π)λhieλhi!,hi1
где переменная имеет любое неотрицательное целочисленное значение, - это ожидаемое число Пуассона для го человека; - вероятность дополнительных нулей.yjλiiπ

Из статьи Арнольда и коллег (2008) я вижу, что модель с барьером в нуле является частным случаем более общего класса моделей с барьерами, но из ссылки на Википедию ( Холл, 2004 ) я также вижу, что некоторые нулевые модели Надутые модели могут быть ограничены сверху. Я не совсем понимаю разницу в формулах, но они кажутся довольно похожими (оба даже используют очень похожий пример, страховые иски). Я надеюсь, что другие ответы могут помочь объяснить любые важные различия, и что этот ответ поможет подготовить почву для них.

Ссылка в Википедии:

  1. Ламберт Д. (1992). Нулевая инфляция по Пуассону с применением к дефектам в производстве. Technometrics, 34 (1), 1–14.
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.