Модель Кокса против логистической регрессии


15

Допустим, нам дали следующую проблему:

Предскажите, какие клиенты, скорее всего, прекратят покупки в нашем магазине в ближайшие 3 месяца.
Для каждого клиента мы знаем месяц, когда он начал покупать в нашем магазине, и, кроме того, у нас есть много поведенческих особенностей в ежемесячных агрегатах. «Старший» клиент покупал в течение пятидесяти месяцев; обозначим время, с которого клиент начал покупать, через ( ). Можно предположить, что количество клиентов очень велико. Если клиент перестает покупать в течение трех месяцев, а затем возвращается, он считается новым клиентом, поэтому событие (прекращение покупки) может произойти только один раз.TT[0,50]

Два решения приходят мне на ум:

Логистическая регрессия - для каждого клиента и каждого месяца (может быть, за исключением 3 самых новых месяцев) мы можем сказать, прекратил ли клиент покупку или нет, поэтому мы можем проводить выборочные проверки с одним наблюдением на клиента и в месяц. Мы можем использовать количество месяцев с начала в качестве категориальной переменной, чтобы получить некоторый эквивалент функции базовой опасности.

Расширенная модель Кокса - Эта проблема также может быть смоделирована с использованием расширенной модели Кокса. Кажется, что эта проблема больше подходит для анализа выживания.

Вопрос: Каковы преимущества анализа выживания в подобных задачах? Анализ выживания был придуман по какой-то причине, поэтому должно быть какое-то серьезное преимущество.

Мои знания в области анализа выживания не очень глубокие, и я думаю, что большинство потенциальных преимуществ модели Кокса также может быть достигнуто с помощью логистической регрессии.

  • Эквивалент стратифицированной модели Кокса может быть получен с использованием взаимодействия и стратифицирующей переменной. T
  • Модель взаимодействия Кокса может быть получена путем разделения популяции на несколько подгрупп и оценки LR для каждой подгруппы.

Единственное преимущество, которое я вижу, это то, что модель Кокса более гибкая; Например, мы можем легко рассчитать вероятность того, что клиент прекратит покупку через 6 месяцев.

Ответы:


10

Проблема с моделью Кокса в том, что она ничего не предсказывает. «Перехват» (базовая функция опасности) в моделях Кокса фактически никогда не оценивается. Логистическая регрессия может использоваться для прогнозирования риска или вероятности какого-либо события, в данном случае: приходит ли субъект, чтобы купить что-то в определенный месяц.

Проблема с предположениями, лежащими в основе обычной логистической регрессии, заключается в том, что вы рассматриваете каждое наблюдение в человеко-месяце как независимое, независимо от того, было ли это то же лицо или тот же месяц, в котором были наблюдения. Это может быть опасно, потому что некоторые предметы покупаются с двухмесячным интервалом, поэтому последовательные наблюдения человека по месяцам имеют отрицательную корреляцию. С другой стороны, клиент может быть задержан или потерян из-за хорошего или плохого опыта, который ведется подряд, а наблюдения за месяцем положительно коррелируют.

Я думаю, что хорошим началом этой проблемы прогнозирования является использование подхода прогнозирования, когда мы можем использовать предыдущую информацию, чтобы проинформировать наши прогнозы о бизнесе в следующем месяце. Простым началом этой проблемы является корректировка запаздывающего эффекта или показателя того, прибыл ли субъект в прошлом месяце, в качестве предиктора того, могут ли они прибыть в этом месяце.


2
Разве здесь нельзя использовать многоуровневую логистическую регрессию для решения проблемы независимости? Уровень 2 будет клиентами, а уровень 1 будет повторяться с течением времени.
Forinstance

1
@ AdamO, перехват может быть оценен, и в сочетании с предсказанием частичной опасности человека, мы можем создать индивидуальные кривые выживания. Я не уверен, почему вы думаете, что модель Кокса может предсказать «ничто».
Cam.Davidson.Pilon

δ

В целях прогнозирования, я чувствую, что это не блокаторы. Нет ничего необычного в том, чтобы объединить несколько оценок для создания одного прогноза, и (к сожалению, и я не сторонник этого) интервалы прогнозирования обычно не используются или не доступны в любом случае.
Cam.Davidson.Pilon

@ Cam.Davidson.Pilon Я не сказал, что прогнозы риска не могут быть получены из данных о выживании, я сказал, что модели Кокса не предсказывают риск. Шаги между вызовом coxphи получением оценки риска крутые и много.
AdamO

3

TJJPr(TJ>3)J3

Анализ выживания учитывает тот факт, что каждый клиент имеет свое время входа в исследование. Таким образом, тот факт, что период наблюдения варьируется в зависимости от клиентов, не является проблемой.

J


Примечание : вот статья, которая показывает, что при некоторых ограничениях и логистика, и модель Кокса связаны между собой.


Спасибо за ответ. Если SA правильно обрабатывает цензуру, это означает, что решение LR не справляется с цензурой должным образом. Как это может закончиться? Я до сих пор просто не могу убедить myselft, что SA лучше для цели с фиксированным временем. Могу ли я найти где-нибудь эту статью бесплатно?
Томек Тарчински

Yзнак равно0

Мой электронный адрес: tomek.tarczynski@gmail.com Большое спасибо!
Томек Тарчинский

@TomekTarczynski: получил?
октября

Да, еще раз спасибо! Завтра у меня будет время прочитать его более внимательно. Я просто просмотрел его, и если я правильно понял, это решает немного другую проблему. Используя аналогию с магазином, он сравнивает LR и COX с проблемой «Какова вероятность того, что клиент больше не будет клиентом после определенного количества месяцев от начала?»
Томек Тарчински

2

Маркетинговая литература предлагает Pareto / NBD здесь или подобное. Вы в основном принимаете, что покупка - в то время как они покупают - следует отрицательному биномиальному распределению. Но вы должны смоделировать время, когда клиент останавливается. Это другая часть.

У Пита Фейдера и Брюса Харди есть кое-какие документы по этому вопросу вместе с Абэ.

Есть несколько более простых подходов к Парето / НБД, даже если учесть различные работы Фейдера и Харди. НЕ используйте более простой подход, при котором предполагается, что вероятность остановки постоянна в каждый момент времени - это означает, что ваши более тяжелые клиенты с большей вероятностью отстанут раньше. Это более простая модель, но она ошибочна.

Я не подходил один из них в течение некоторого времени; извините, чтобы быть немного неспецифическим.

Вот ссылка на статью Абэ, в которой эта проблема рассматривается как иерархическая система Байеса. , Если бы я снова работал в этой области, думаю, я бы опробовал этот подход.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.