Для каждой записи в моих наборах данных у меня есть следующая информация
где - объекты, - 1, если происходит целевое событие, и 0 в противном случае, а - отметка времени произошедшего события. В частности, может отсутствовать, если не было события или установлено время окончания наблюдения.
Я хочу вычислить индекс риска для каждой записи в моем наборе данных.
Я думал пойти на модель классификации, которая использует функции для прогнозирования класса . Тем не менее, важно: если событие может произойти в ближайшее время, риск должен быть выше.
Вот почему анализ выживания должен подходить для этой проблемы. Мне не нужна полная оценка а только один индекс, представляющий риск для одной записи.
Среднее время выживания, которое можно рассчитать для каждой записи, кажется хорошим показателем риска - чем ниже, тем выше риск.
Мой вопрос:
- Подходит ли анализ выживания для моих целей?
- Как я могу оценить производительность моей модели?
О вопросе (2): я стремлюсь использовать индекс Харрелла, например, но я не уверен, какой прогнозируемый результат используется для его вычисления. Из книги Харрелла «Стратегии регрессионного моделирования», стр. 247:
Индекс [...] рассчитывается путем взятия всех возможных пар субъектов таким образом, чтобы один из них ответил, а другой - нет. Индекс - это доля таких пар, у которых респондент имеет более высокую прогнозируемую вероятность ответа, чем не респондент.
Если анализ выживания оказывается правильным выбором, я думаю, что должно быть легко использовать какой-то стандартный метод для введения изменяющихся во времени ковариат .