Когда использовать надежные стандартные ошибки в пуассоновской регрессии?

Я использую модель регрессии Пуассона для данных подсчета и мне интересно, есть ли причины не использовать надежную стандартную ошибку для оценок параметров? Я особенно обеспокоен тем, что некоторые из моих оценок без робастных не значимы (например, р = 0,13), но с робастными являются значимыми (р <0,01).

В SAS это доступно с помощью повторного оператора в proc genmod(например, repeated subject=patid;). Я использовал http://www.ats.ucla.edu/stat/sas/dae/poissonreg.htm в качестве примера, в котором приводится статья Камерона и Триведи (2009) в поддержку использования надежных стандартных ошибок.

poisson-distribution robust

— Kara
источник

Ответы:

В общем, если у вас есть подозрения, что ваши ошибки гетероскедастичны, вы должны использовать надежные стандартные ошибки. Тот факт, что ваши оценки становятся несущественными, когда вы не используете надежные SE, указывает (но не доказывает) необходимость в надежных SE! Эти SE "устойчивы" к смещению, которое гетероскедастичность может вызывать в обобщенной линейной модели.

Эта ситуация немного отличается тем, что вы накладываете их поверх регрессии Пуассона.

Пуассон обладает хорошо известным свойством, заключающимся в том, что оно заставляет дисперсию быть равной среднему, независимо от того, подтверждают это данные или нет. Прежде чем рассматривать устойчивые стандартные ошибки, я бы попробовал регрессивную отрицательную биномиальную, которая не страдает от этой проблемы. Существует тест (см. Комментарий), который помогает определить, является ли результирующее изменение стандартных ошибок значительным.

Я не знаю наверняка, подразумевает ли изменение, которое вы видите (переход к мощным SE, сужает CI), недостаточное рассеивание, но это кажется вероятным. Посмотрите на подходящую модель (я думаю, отрицательный бином, но быстрое прибегание к помощи также предлагает квази-Пуассон для недостаточной дисперсии?) И посмотрите, что вы получите в этой настройке.

— Ари Б. Фридман
источник

Хороший ответ! Обычно в OLS гетероскедастичность не приводит к несмещенности параметров (просто неэффективно). Это не так, хотя для обобщенных линейных моделей см. Этот пост Дейва Джайлса об этом для справок. Я не думаю, что видел тест Vuong, рекомендованный для этого, хотя (для сравнения не вложенных моделей с нулевым раздуванием я видел, что это предложило). Пуассон вложен в нег. Биноминальная модель, поэтому можно использовать критерий отношения правдоподобия для параметра дисперсии.

— Энди W

Спасибо за ваш ответ. Я попробовал Отрицательную Биномиальную регрессию, но натолкнулся на предупреждение: «Критерий относительной сходимости Гессена 0,0046138565 превышает предел 0,0001. Сходимость сомнительна». Обратите внимание, что моя переменная ответа представляет собой число со значениями в диапазоне от 0 до 4. Существует ли преобразование зависимой или независимой переменной, которое поможет конвергенции? Или что делать в этом случае?

— Кара

Кроме того, это связано с тем, что нестабильные SE меньше по размеру - в моем анализе я вижу, что именно надежные SE меньше, и именно в этом заключается значение (а не в неустойчивых результатах). Вот почему я хочу быть осторожным с тем, стоит ли сообщать о достоверных результатах - я не хочу выбирать этот метод только из-за значительных значений! Еще раз спасибо!

— Кара

@AndyW Я проверил свои записи, и Вуонг действительно для З.И. против Пуассона. Обновленный пост. Кара я пропустил разворот. Вы могли бы иметь недостаточно рассредоточенные данные, и в этом случае NBD также потенциально является решением :-)

— Ари Б. Фридман,

@kara Трудно диагностировать вашу проблему схождения в комментариях. Я бы попробовал новый вопрос только по этому вопросу, предоставив как можно больше информации.

— Ари Б. Фридман

Я буду дифференцировать анализ с использованием моделей на основе надежных стандартных ошибок, называя последние «GEE», что фактически является взаимозаменяемым определением. В дополнение к фантастическому объяснению Scortchi:

GEE могут быть «предвзятыми» в небольших выборках, то есть в 10-50 субъектах: (Lipsitz, Laird, Harrington, 1990; Emrich и Piedmonte, 1992; Sharples и Breslow, 1992; Lipsitz et al., 1994; Qu, Piedmonte, and Williams, 1994; Gunsolley, Getchell и Chinchilli, 1995; Sherman and le Cessie, 1997.) Когда я говорю, что GEE предвзяты, я имею в виду, что стандартная оценка ошибки может быть либо консервативной, либо антиконсервативной из-за малого или нулевого числа ячеек в зависимости от того, какие подогнанные значения демонстрируют это поведение и насколько они согласуются с общей тенденцией регрессионной модели.

В общем, когда параметрическая модель задана правильно, вы все равно получаете правильные оценки стандартных ошибок от CI, основанных на модели, но весь смысл использования GEE состоит в том, чтобы учесть это очень большое «если». GEE позволяют статистику просто определять рабочую вероятностную модель для данных, а параметры (вместо того, чтобы интерпретироваться в строго параметрической структуре) считаются типом «решета», который может генерировать воспроизводимые значения независимо от базовой, неизвестной генерации данных механизм. Это сердце и душа полупараметрического анализа, примером которого является GEE.

GEE также обрабатывают неизмеренные источники ковариации в данных, даже с указанием независимой корреляционной матрицы. Это из-за использования эмпирической, а не основанной на модели ковариационной матрицы. Например, при моделировании Пуассона вас могут заинтересовать показатели рождаемости лосося, отобранные из различных потоков. Яйца, добытые из самок, могут иметь основное распределение Пуассона, но генетические вариации, которые включают общую схожесть и доступные ресурсы в определенных потоках, могут сделать рыбу в этих потоках более похожей, чем среди других потоков. GEE будет давать правильные оценки стандартных погрешностей населения, если частота выборки соответствует их доле населения (или другим образом стратифицируется).

— Adamo
источник

Вы делаете тест на нулевое значение равноудаленной дисперсии. Это простая вспомогательная регрессия OLS. Там есть описание на странице 670 Кэмерона и Триведи. При большом избыточном рассеянии стандартные ошибки очень сильно снижаются, поэтому я бы очень осторожно относился к любым результатам, которые зависят от ненадежного VCE, когда есть чрезмерное рассеяние. При недостаточной дисперсии будет происходить обратное, что похоже на сценарий, в котором вы находитесь.

— Димитрий Васильевич Мастеров
источник