Смещения можно использовать в любой регрессионной модели, но они гораздо чаще встречаются при работе с данными подсчета для вашей переменной ответа. Смещение - это просто переменная, для которой в модели используется коэффициент 1 . (Смотрите также эту превосходную ветку резюме: когда использовать смещение в регрессии Пуассона? )
При правильном использовании с данными подсчета это позволит вам моделировать показатели вместо подсчета . Если это представляет интерес, то это что-то делать. Таким образом, это контекст, в котором смещения используются наиболее часто. Давайте рассмотрим пуассоновский GLiM с лог-ссылкой (которая является канонической).
пер( λ )пер( λт я м е)пер( λ ) - ln( Т я м е )пер( λ )пер( λ )= β0+ β1Икс= β0+ β1Икс⇒= β0+ β1Икс= β0+ β1Икс+ 1 × ln( Т я м е )≠= β0+ β1Икс+ β2× ln( Т я м е )ж ч е н р 2≠ 1( С о у н т ы )(rates)(still rates)(counts again)
(Как видите, ключ к правильному использованию смещения должен сделать смещением, а не t i m e .) ln(time)time
Когда коэффициент на не равен 1 , вы больше не моделируете скорости. Но так как β 2 ∈ ( - ∞ , 1 ) ∪ ( 1 , ∞ ) обеспечивает гораздо большую гибкость для подгонки данных, модели, которые не используют ln ( t i m e ) в качестве смещения, как правило, подойдут лучше (хотя они могут тоже наряд). ln(time)1β2∈(−∞,1)∪(1,∞)ln(time)
Нужно ли вам моделировать счет или ставку на самом деле, зависит от вашего основного вопроса. Вы должны смоделировать тот, который соответствует тому, что вы хотите знать.
Что касается того, что может означать, что не равно 1 , рассмотрим пример, где время не является рассматриваемой переменной. Представьте себе изучение количества хирургических осложнений в разных больницах. В одной больнице имеется гораздо больше сообщений о хирургических осложнениях, но они могут утверждать, что сравнение несправедливо, потому что они делают гораздо больше операций. Таким образом, вы решили попытаться контролировать это. Вы можете просто использовать журнал количества операций в качестве смещения, который позволит вам изучить частоту осложнений на операцию. Вы также можете использовать журнал количества операций в качестве другого ковариата. Допустим, коэффициент существенно отличается от 1 . Если β 2 > 1β211β2>1тогда в больницах, которые проводят больше операций, частота осложнений выше (возможно, потому, что они торопятся с работой, чтобы сделать больше). Если , больницы, которые делают больше всего, имеют меньше осложнений на операцию (возможно, у них есть лучшие врачи, и поэтому делают больше и делают их лучше). β2<1
Понять, как это могло бы произойти, если бы рассматриваемой переменной было время, немного сложнее. Распределение Пуассона возникает в результате процесса Пуассона , в котором время между событиями экспоненциально распределено, и, следовательно, существует естественная связь с анализом выживания. В анализе выживаемости время до событий часто не распределяется как экспоненциальное, но базовая опасность может со временем увеличиваться или уменьшаться. Таким образом, рассмотрим случай, когда вы моделируете количество событий, которые происходят после некоторой естественной отправной точки. Если , это означает, что скорость событий увеличивается, тогда как если β 2 < 1β2> 1β2< 1, это означает, что скорость событий замедляется.
Для конкретного примера первого, представьте сканирование, которое подсчитывает количество раковых клеток за период времени после того, как первоначальная опухоль была удалена хирургическим путем. У некоторых пациентов с момента операции прошло больше времени, и вы хотели принять это во внимание. Поскольку после того, как рак восстановился, он начнет расти в геометрической прогрессии, частота будет увеличиваться с течением времени после операции без дополнительного лечения.
В качестве конкретного примера последнего рассмотрим число людей, которые умирают от вспышки болезни, от которой у нас нет лечения. Сначала многие люди умирают из-за того, что они были более восприимчивы к этому заболеванию или уже имели ослабленную иммунную систему и т. Д. Со временем, когда оставшееся число людей становится менее восприимчивым к этому заболеванию, показатель будет снижаться. (Извините, этот пример настолько болезненный.)