GLM с непрерывными данными, накопленными в нуле

11

Я пытаюсь использовать модель для оценки того, насколько катастрофические заболевания, такие как туберкулез, СПИД и т. Д., Влияют на расходы на госпитализацию. У меня есть «стоимость госпитализации» в качестве зависимой переменной и различные индивидуальные маркеры в качестве независимых переменных, почти все из которых являются фиктивными, такими как пол, глава семьи, статус бедности и, конечно же, фиктивные данные о том, есть ли у вас болезнь (плюс возраст и возраст в квадрате) и куча терминов взаимодействия.

Как и следовало ожидать, существует значительное количество - и я имею в виду много - данных, накопленных в ноль (т. Е. Никаких расходов на госпитализацию за 12-месячный отчетный период). Как лучше всего справляться с такими данными?

На данный момент я решил преобразовать стоимость в ln(1+cost)так, чтобы включить все наблюдения, а затем запустить линейную модель. Я на правильном пути?

— user42372
источник

1

Ваш ответ на самом деле считается? Вы ищете термин нулевой инфляции .

— gung - Восстановить Монику

2

Можно также иметь накачанные нулями непрерывные распределения; Есть, например, гамма-модели с нулевым уровнем инфляции.

— Glen_b

1

@Glen_b, это то, что я имел в виду. Я никогда этого не делал. Предложение Фрэнка Харрелла о OLR - это умный способ обойти эту проблему.

— gung - Восстановить Монику

8

Как обсуждалось в другом месте на сайте, порядковая регрессия (например, пропорциональные шансы, пропорциональные опасности, пробит) является гибким и надежным подходом. Разрывы допускаются при распределении , включая экстремальные сгущения. Ничего не предполагается о распределении для одного . Модели с нулевым раздувом делают гораздо больше предположений, чем полупараметрические модели. Полное описание конкретного случая см. В моих раздаточных материалах для курса, глава 15, по адресу http://biostat.mc.vanderbilt.edu/CourseBios330 . $Y$ $Y$ $X$

Одним из больших преимуществ порядковых моделей для непрерывного является то, что вам не нужно знать, как преобразовывать перед анализом. $Y$ $Y$

— Фрэнк Харрелл
источник

8

Скопление в 0 называется "нулевой инфляцией". Безусловно, наиболее распространенными случаями являются модели подсчета, которые приводят к нуля-Пуассона с нулевой инфляцией и отрицательной биномиальной регрессии. Однако существуют способы моделирования нулевой инфляции с реальными положительными значениями (например, гамма-модель с нулевой инфляцией).

См. Min and Agresti, 2002, Моделирование неотрицательных данных с объединением в ноль для обзора этих методов.

— Питер Флом - Восстановить Монику
источник

1

Предложение об использовании модели Пуассона с нулевым давлением является интересным началом. Он имеет некоторые преимущества совместного моделирования вероятности возникновения каких-либо связанных с заболеванием расходов, а также процесса определения того, какими будут эти расходы в случае заболевания. У него есть ограничение, заключающееся в том, что он налагает некоторую строгую структуру на то, какова форма результата, обусловленная наложением каких-либо затрат (например, определенным отношением средней дисперсии и положительным целочисленным результатом ... последнее может быть смягчено для некоторых цели моделирования).

Если у вас все в порядке с лечением связанных с болезнью поступлений и связанных с болезнью расходов, зависящих от процессов приема самостоятельно, вы можете расширить это, сначала смоделировав двоичный процесс из года в год. Начисляли ли вы какие-либо расходы, связанные с болезнью? Это простая модель логистической регрессии, позволяющая оценить факторы риска и распространенность. Принимая это во внимание, вы можете ограничить анализ группой лиц, которые начислили какие-либо затраты, и смоделировать процесс фактических затрат, используя множество технических моделей моделирования. Пуассон хорош, квази-Пуассон был бы лучше (учитывая небольшие неизмеренные источники ковариации в данных и отклонения от модельных допущений). Но небо это предел с моделированием непрерывного процесса затрат.

Если вам абсолютно необходимо смоделировать соотношение параметров в процессе, вы можете использовать оценки начальной загрузки SE. Я не вижу причин, почему это было бы неверно, но было бы любопытно услышать мнение других, если это может быть неправильно. В общем, я думаю, что это два отдельных вопроса, и к ним следует относиться как к обоснованным выводам.

— Adamo
источник