Я рассчитываю построить прогностическую модель для прогнозирования оттока и использовать модель выживания с дискретным временем, адаптированную к набору данных за период человека (одна строка для каждого клиента и дискретный период, в котором они находились под угрозой, с показателем для события - равным 1 если отток произошел в тот период, иначе 0).
- Я подгоняю модель, используя обычную логистическую регрессию, используя технику Сингера и Виллета.
- Отток клиентов может произойти где угодно в течение месяца, но только в конце месяца мы узнаем об этом (то есть когда-то в течение того месяца, когда они ушли). 24 месяца используется для обучения.
- В качестве временной переменной используется время начала выборки - все клиенты, активные на 31.12.2008 г., - все они получают t = 0 по состоянию на январь 2009 г. (это не классический способ сделать это, но я верю, что при построении прогнозная модель по сравнению с традиционной статистической). Используемая ковариата - это срок владения клиента на тот момент времени.
Был создан ряд ковариат, некоторые из которых не меняются по строкам набора данных (для данного клиента), а некоторые - изменяются.
Эти вариации во времени являются проблемой, и что заставляет меня подвергать сомнению модель выживания для прогнозирования оттока (по сравнению с обычным классификатором, который прогнозирует отток в следующие x месяцев на основе текущих данных снимка). Не зависящие от времени описания описывают активность за месяц до этого и, как ожидается, станут важными триггерами.
Реализация этой прогностической модели, по крайней мере, на основе моего нынешнего мышления, состоит в том, чтобы оценивать клиентскую базу в конце каждого месяца, вычисляя вероятность / риск оттока в течение следующего месяца. Затем снова на следующие 1,2 или 3 месяца. Затем на следующие 1,2,3,4,5,6 мес. Для вероятности оттока за 3 и 6 месяцев я бы использовал оценочную кривую выживаемости.
Проблема:
Когда речь заходит о подсчете очков, как я могу использовать изменяющиеся во времени предикторы? Кажется, что я могу оценивать только с постоянными по времени предикторами или включать те, которые не зависят от времени, вы должны сделать их неизменными по времени - установить значение «прямо сейчас».
У кого-нибудь есть опыт или мысли об использовании модели выживания?
Обновление на основе комментария @JVM:
проблема не в оценке модели, интерпретации коэффициентов, построении графиков опасности / выживания интересных ковариатных значений с использованием данных обучения и т. Д. Проблема заключается в использовании модели для прогнозирования риска для данного клиента. Скажем, в конце этого месяца я хочу оценить всех, кто еще является активным клиентом этой модели. Я хочу спрогнозировать этот риск на основе x периодов (риск закрытия счета в конце следующего месяца. Риск закрытия счета в конце двух месяцев и т. Д.). Если есть ковариаты, изменяющиеся во времени, их значения неизвестны для любых будущих периодов, так как использовать модель?
Окончательное обновление.
В наборе данных за период будет указана запись для каждого человека и каждого периода времени, в котором они находятся под угрозой. Скажем, есть J периодов времени (возможно, J = 1 ... 24 в течение 24 месяцев). Допустим, я строю модель выживания с дискретным временем, где для простоты мы просто рассматриваем время T как линейное и имеем два ковариата X и Z, где X - время -инвариант, означающий, что он постоянен в каждом периоде для i-го человека, а Z изменяется во времени, что означает, что каждая запись для i-го человека может принимать различное значение. Например, X может быть пол клиентов, а Z может быть сколько они стоили для компании в предыдущем месяце. Модель логита опасности для i-го человека в j-й период времени:
Я могу думать только о следующих решениях:
- Не используйте изменяющиеся во времени ковариаты, такие как Z. Это сильно ослабило бы модель для прогнозирования события вспенивания, хотя, например, уменьшение Z означает, что клиент отключается и, возможно, готовится уйти.
- Используйте изменяющиеся во времени ковариаты, но отставайте от них (как Z был выше), что позволяет нам прогнозировать, сколько раз мы отстали от переменной (опять же, думая о модели, забивающей новые текущие данные).
- Используйте изменяющиеся во времени ковариаты, но сохраняйте их в качестве констант в прогнозе (поэтому модель была приспособлена для изменяющихся данных, но для прогнозирования мы оставляем их постоянными и моделируем, как изменения в этих значениях, если они будут наблюдаться позднее, повлияют на риск оттока.