В модели Пуассона, в чем разница между использованием времени как ковариаты или смещения?

Недавно я обнаружил, как моделировать экспозиции во времени, используя журнал (например) времени как смещение в регрессии Пуассона.

Я понял, что смещение соответствует времени как ковариации с коэффициентом 1.

Я хотел бы лучше понять разницу между использованием времени в качестве смещения или в качестве обычного ковариата (поэтому оценка коэффициента). В какой ситуации я должен использовать один метод или другой?

ОБНОВЛЕНИЕ: я не знаю, если это интересно, но я провел проверку двух методов, используя случайно разделенные данные, повторенные 500 раз, и я заметил, что использование метода смещения приводит к большей ошибке теста.

poisson-regression predictor offset

— Bakaburg
источник

Ответы:

Смещения можно использовать в любой регрессионной модели, но они гораздо чаще встречаются при работе с данными подсчета для вашей переменной ответа. Смещение - это просто переменная, для которой в модели используется коэффициент $1$ . (Смотрите также эту превосходную ветку резюме: когда использовать смещение в регрессии Пуассона? )

При правильном использовании с данными подсчета это позволит вам моделировать показатели вместо подсчета . Если это представляет интерес, то это что-то делать. Таким образом, это контекст, в котором смещения используются наиболее часто. Давайте рассмотрим пуассоновский GLiM с лог-ссылкой (которая является канонической).

\begin{aligned} \ln (λ) & = β_{0} + β_{1} X & (c o u n t s) \\ \ln (\frac{λ}{t i m e}) & = β_{0} + β_{1} X & (r a t e s) \\ \Rightarrow \\ \ln (λ) - \ln (t i m e) & = β_{0} + β_{1} X \\ \ln (λ) & = β_{0} + β_{1} X + 1 \times \ln (t i m e) & (s t i l l r a t e s) \\ \neq \\ \ln (λ) & = β_{0} + β_{1} X + β_{2} \times \ln (t i m e) w h e n β_{2} \neq 1 & (c o u n t s a g a i n) \end{aligned}

$\begin{align} \ln(\lambda) &= \beta_0 + \beta_1X & ({\rm counts})& \\ \ln\bigg(\frac{\lambda}{{\rm time}}\bigg) &= \beta_0 + \beta_1X & ({\rm rates})& \\ &\Rightarrow \\ \ln(\lambda) - \ln({\rm time}) &= \beta_0 + \beta_1X \\ \ln(\lambda) &= \beta_0 + \beta_1X + 1\times \ln({\rm time}) & ({\rm still\ rates})& \\ &\ne \\ \ln(\lambda) &= \beta_0 + \beta_1X + \beta_2\times \ln({\rm time})\quad {\rm when}\ \beta_2 \ne 1 & ({\rm counts\ again})& \end{align}$

(Как видите, ключ к правильному использованию смещения должен сделать смещением, а не .) $\ln({\rm time})$ $\rm time$

Когда коэффициент на не равен , вы больше не моделируете скорости. Но так как обеспечивает гораздо большую гибкость для подгонки данных, модели, которые не используют в качестве смещения, как правило, подойдут лучше (хотя они могут тоже наряд). $\ln({\rm time})$ $1$ $\beta_2 \in (-\infty, 1)\cup (1, \infty)$ $\ln({\rm time})$

Нужно ли вам моделировать счет или ставку на самом деле, зависит от вашего основного вопроса. Вы должны смоделировать тот, который соответствует тому, что вы хотите знать.

Что касается того, что может означать, что не равно , рассмотрим пример, где время не является рассматриваемой переменной. Представьте себе изучение количества хирургических осложнений в разных больницах. В одной больнице имеется гораздо больше сообщений о хирургических осложнениях, но они могут утверждать, что сравнение несправедливо, потому что они делают гораздо больше операций. Таким образом, вы решили попытаться контролировать это. Вы можете просто использовать журнал количества операций в качестве смещения, который позволит вам изучить частоту осложнений на операцию. Вы также можете использовать журнал количества операций в качестве другого ковариата. Допустим, коэффициент существенно отличается от . Если $\beta_2$ $1$ $1$ $\beta_2 > 1$ тогда в больницах, которые проводят больше операций, частота осложнений выше (возможно, потому, что они торопятся с работой, чтобы сделать больше). Если , больницы, которые делают больше всего, имеют меньше осложнений на операцию (возможно, у них есть лучшие врачи, и поэтому делают больше и делают их лучше). $\beta_2 < 1$

Понять, как это могло бы произойти, если бы рассматриваемой переменной было время, немного сложнее. Распределение Пуассона возникает в результате процесса Пуассона , в котором время между событиями экспоненциально распределено, и, следовательно, существует естественная связь с анализом выживания. В анализе выживаемости время до событий часто не распределяется как экспоненциальное, но базовая опасность может со временем увеличиваться или уменьшаться. Таким образом, рассмотрим случай, когда вы моделируете количество событий, которые происходят после некоторой естественной отправной точки. Если , это означает, что скорость событий увеличивается, тогда как если $\beta_2 > 1$ $\beta_2 < 1$ , это означает, что скорость событий замедляется.

Для конкретного примера первого, представьте сканирование, которое подсчитывает количество раковых клеток за период времени после того, как первоначальная опухоль была удалена хирургическим путем. У некоторых пациентов с момента операции прошло больше времени, и вы хотели принять это во внимание. Поскольку после того, как рак восстановился, он начнет расти в геометрической прогрессии, частота будет увеличиваться с течением времени после операции без дополнительного лечения.

В качестве конкретного примера последнего рассмотрим число людей, которые умирают от вспышки болезни, от которой у нас нет лечения. Сначала многие люди умирают из-за того, что они были более восприимчивы к этому заболеванию или уже имели ослабленную иммунную систему и т. Д. Со временем, когда оставшееся число людей становится менее восприимчивым к этому заболеванию, показатель будет снижаться. (Извините, этот пример настолько болезненный.)

— Gung - Восстановить Монику
источник

Большое спасибо Gung за исчерпывающий ответ! Пожалуйста, скажите мне, если я правильно понял. Если мы используем время в качестве смещения, мы предполагаем линейную положительную связь между временем и событиями, угловой коэффициент которых задается другими предикторами, возведенными в степень

y = t i m e * \exp (\sum_{1}^{p} β_{p} X_{p} + c o n s t)

$y = {\rm time}*\exp(\sum_{1}^{p}\beta_pX_p + {\rm const})$ , Вместо этого, если мы используем логарифм как ковариату, мы оцениваем экспоненциальное влияние времени на события, которое может быть как положительным, так и отрицательным.

y = {t i m e}^{β_{t i m e}} * \exp (\sum_{1}^{p} β_{p} X_{p} + c o n s t)

$y = {\rm time}^{\beta_{{\rm time}}}*\exp(\sum_{1}^{p}\beta_pX_p + {\rm const})$ . (cont...)

— Bakaburg

Therefore why one should assume that the relationship between time and events is linear and growing? Wouldn't be better to estimate the shape of such relationship in every case? I have two more questions: 1. what would it mean to use not log transformed time as covariate instead? 2. (maybe I should edit the question or ask a new one for this) I read that poisson models can actually be used with not integer y too. Thus I could write in R: glm(I(y/time) ~ cov.1 + ... + cov.n, poisson) and have the same results that I have using offset(log(time)). I tried this but I get different coefficients.

— Bakaburg

Дистанция Пуассона только для целых чисел; Вы не должны вводить дробь на LHS. Отказ от лог-преобразования означает моделирование скоростей событий за экспоненциально-единичное время, что, вероятно, никогда не будет разумным в реальном мире.

— gung - Восстановить Монику

@ Бакабург, время, вероятно, связано с ними. Это ничем не отличается от любой другой ситуации регрессионного моделирования. Я не вижу здесь проблемы. Вы либо заинтересованы в моделировании средних ставок, либо нет.

— gung - Восстановить Монику

@tatami, если вы собираетесь использовать время как ковариату (а не как смещение), вам не нужно брать журнал времени. Однако, если вы хотите сравнить свой результат со смещением, вам потребуется использовать журнал, чтобы сделать их сопоставимыми.

— gung - Восстановить Монику

Смещения времени обычно можно рассматривать как вашу модель, оценивающую частоту возникновения события в единицу времени, причем смещение контролирует продолжительность наблюдения различных объектов.

В пуассоновских моделях вы всегда оцениваете скорость, с которой что-то происходит, но вы никогда не сможете наблюдать эту скорость напрямую. Вы действительно получите , чтобы наблюдать количество раз , что событие происходит в течение некоторого количества времени. Смещение устанавливает связь между этими двумя понятиями.

Например, вы наблюдали, как предметы снимали корзины в течение различного времени, и подсчитывали количество успешных корзин для каждого предмета. Что вас действительно интересует, так это то, как часто каждый субъект поглощает корзину, т. Е. Количество успешных корзин, которые каждый субъект ожидает снижать каждую минуту, поскольку это несколько объективный показатель их умения. Количество корзин, которые вы действительно наблюдали, в этом случае будет равно расчетной норме, умноженной на то, сколько времени вы наблюдали за попыткой субъекта. Таким образом, вы можете думать с точки зрения единиц ответа, количества корзин в минуту .

Трудно представить себе ситуацию, в которой вы использовали бы время, наблюдаемое как ковариату в регрессии Пуассона, поскольку по самой своей природе вы оцениваете коэффициент.

Например, если я хочу оценить влияние американцев против европейцев (очень глупый пример) на количество корзин, добавление времени в качестве ковариаты позволит мне оценить этот эффект «независимо» от времени, прошедшего с момента выстрела, Это? Кроме того, это также дало бы мне оценку влияния времени на результат.

Вот пример, который, мы надеемся, подчеркивает опасность этого. Предположим, что американцы и европейцы, по правде говоря, утопают одинаковое количество корзин каждую минуту. Но скажем, что мы наблюдали каждого европейца в два раза дольше каждого американца, поэтому в среднем мы наблюдали вдвое больше корзин для каждого европейца.

Если мы настроим модель, включающую параметры как для наблюдаемого времени, так и для индикатора «является европейским», то обе эти модели поясняют данные:

Е (корзины) знак равно 2 с T + 0 {Икс}_{Eropean}

$E(\text{baskets}) = 2 c t + 0 x_{\text{Eropean}}$

Е (корзины) знак равно 0 T + 2 с {Икс}_{Eropean}

$E(\text{baskets}) = 0 t + 2 c x_{\text{Eropean}}$

(где $c$ некоторая константа, которая является истинным показателем того, что оба типа игроков делают корзины).

Как статистик, мы действительно хотим, чтобы в этой ситуации наша модель информировала нас об отсутствии статистической разницы между скоростью, с которой европейцы делают корзины, и скоростью, которую американцы делают корзины. Но наша модель не смогла этого сделать, и мы растерялись.

Проблема в том, что мы знаем то, чего не знает наша модель . То есть мы знаем, что если мы наблюдаем одного и того же человека в два раза больше времени, то в ожидании они сделают в два раза больше корзин. Поскольку мы это знаем, нам нужно рассказать об этом нашей модели. Это то, что выполняет смещение.

Возможно, использование метода смещения целесообразно, когда мы знаем, что события происходят равномерно по времени!

Да, но это предположение самой модели Пуассона . Со страницы Википедии о распределении Пуассона

распределение Пуассона, названное в честь французского математика Симеона Дени Пуассона, представляет собой дискретное распределение вероятностей, которое выражает вероятность данного числа событий, происходящих в фиксированный интервал времени и / или пространства, если эти события происходят с известной средней скоростью и независимо от время с момента последнего события .

— Мэтью Друри
источник

Спасибо за Ваш ответ. Но если использовать время как ковариату, разве это не даст мне тот же ответ? Например, если я хочу оценить влияние американцев против европейцев (очень глупый пример) на количество корзин, добавление времени в качестве ковариаты позволит мне оценить этот эффект «независимо» от времени, прошедшего после выстрела, не Это? Кроме того, это также дало бы мне оценку влияния времени на результат. Иногда время не всегда важно для переменной подсчета, например, когда события происходят все в начале периода наблюдения.

— Bakaburg

Возможно, использование метода смещения целесообразно, когда мы знаем, что события происходят равномерно по времени!

— Bakaburg

@Bakaburg Я добавил попытку ответа. Я надеюсь, что это помогает!

— Мэтью Друри