Линейная регрессия не является правильным выбором для вашего результата, учитывая:
- Переменная результата обычно не распределяется
- Выходная переменная ограничена в значениях, которые она может принимать (данные подсчета означают, что предсказанные значения не могут быть отрицательными)
- Что, по-видимому, является высокой частотой случаев с 0 посещениями
Модели с ограниченными зависимыми переменными для подсчета данных
Стратегия оценки, которую вы можете выбрать, продиктована «структурой» вашей конечной переменной. То есть, если ваша переменная результата ограничена в значениях, которые она может принять (т.е. если это ограниченная зависимая переменная ), вам нужно выбрать модель, в которой прогнозируемые значения будут находиться в пределах возможного диапазона для вашего результата. Хотя иногда линейная регрессия является хорошим приближением для ограниченных зависимых переменных (например, в случае двоичного логита / пробита), часто это не так. Введите обобщенные линейные модели . В вашем случае, поскольку итоговой переменной являются данные подсчета, у вас есть несколько вариантов:
- Модель Пуассона
- Отрицательная биноминальная модель
- Модель с нулевым надувом Пуассона (ZIP)
- Модель с нулевым накачанным отрицательным биномиалом (ZINB)
Выбор обычно определяется опытным путем. Я кратко расскажу о выборе между этими вариантами ниже.
Пуассон против отрицательного бинома
В общем, Пуассон - это модель «общей рабочей лошадки» из четырех моделей данных, о которых я упоминал выше. Ограничением модели является предположение, что условная дисперсия = условное среднее, что не всегда может быть правдой. Если ваша модель имеет чрезмерный разброс (условная дисперсия> условное среднее), вам нужно будет использовать модель отрицательной биномиальной модели. К счастью, когда вы запускаете отрицательный бином, вывод обычно включает статистический тест для параметра дисперсии (R называет этот параметр дисперсии «theta ( )», который в других пакетах называется «альфа»). Нулевая гипотеза в выборе между пуассоновским и отрицательным биномом: , а альтернативная гипотеза .θЧАС0: θ = 0ЧАС1: θ ≠ 0θ является значительным, в модели есть признаки чрезмерного рассеяния, и вы бы выбрали Negative Binomial вместо Poisson. Если коэффициент не является статистически значимым, представьте результаты Пуассона.
ZIP против ZINB
Одним из возможных осложнений является нулевая инфляция, которая может быть проблемой здесь. Вот где приходят модели с нулевым раздувом ZIP и ZINB. Используя эти модели, вы предполагаете, что процесс, генерирующий нулевые значения, отделен от процесса, генерирующего другие ненулевые значения. Как и прежде, ZINB подходит, когда результат имеет чрезмерные нули и имеет избыточную дисперсию, в то время как ZIP подходит, когда результат имеет чрезмерные нули, но условное среднее = условная дисперсия. Для моделей с нулевым раздувом, в дополнение к ковариатам моделей, которые вы перечислили выше, вам нужно будет подумать о переменных, которые могли генерировать избыточные нули, которые вы видели в результате. Опять же, есть статистические тесты, которые поставляются с выходными данными этих моделей (иногда вам может потребоваться указать их при выполнении команды), которые позволят вамэмпирически решить, какая модель является лучшей для ваших данных. Интересны два теста: первый - это тест коэффициента параметра дисперсии а второй - так называемый тест Вуонга, который сообщает вам, генерируются ли избыточные нули отдельным процессом (т. Е. действительно, нулевая инфляция в результате).θ
Сравнивая выбор между ZIP и ZINB, вы снова посмотрите на тест параметра дисперсии . Опять же, (лучше подходит ZIP) и (лучше подходит ZINB). Тест Vuong позволяет вам принять решение между Пуассоном против ZIP или NB против ZINB. Для теста Вуонга, (Пуассон / NB лучше подходит) и (ZIP / ZINB лучше подходит).θЧАС0: θ = 0ЧАС1: θ ≠ 0ЧАС0: Eх с е с с zeroes is not a result of a separate processг е г O е S I S A R E сек у л т O F а ы е р а г а т е р г O гр е с ыH1:Excess zeroes is a result of a separate process
Другие пользователи могут комментировать «обычный» рабочий процесс, но мой подход заключается в визуализации данных и переходе оттуда. В вашем случае, я бы, вероятно, начал с ZINB и запустил как тест на коэффициент на и тест Вуонга, так как это тест на коэффициент на сказал бы, какой из них лучше между ZIP и ZINB, и Тест Vuong скажет вам, следует ли вам использовать модели с нулевым надуванием. θθθ
Наконец, я не использую R, но страница примеров анализа данных IDRE в UCLA может помочь вам в подборе этих моделей.
[Редактировать другим пользователем без достаточной репутации, чтобы комментировать. В этом документе объясняется, почему не следует использовать тест Вуонга для сравнения модели с нулевой инфляцией, и предлагаются альтернативы.
П. Уилсон, «Неправильное использование теста Вуонга для не вложенных моделей для проверки на нулевую инфляцию». Letters Economics, 2015, вып. 127, выпуск C, 51-53 ]