Я знаю, что традиционные статистические модели, такие как регрессия пропорциональных рисков Кокса и некоторые модели Каплана-Мейера, могут использоваться для прогнозирования дней до следующего возникновения события, скажем, провала и т. Д., Т. Е. Анализа выживания
Вопросов
- Как можно использовать регрессионную версию моделей машинного обучения, таких как GBM, нейронные сети и т. Д., Для прогнозирования дней до наступления события?
- Я полагаю, что использование дней до появления в качестве целевой переменной и упрощение работы регрессионной модели не сработает? Почему это не работает и как это можно исправить?
- Можем ли мы преобразовать проблему анализа выживания в классификацию и затем получить вероятности выживания? Если тогда как создать двоичную целевую переменную?
- Каковы плюсы и минусы подхода машинного обучения по сравнению с регрессией пропорциональных рисков Кокса, моделями Каплана-Мейера и т. Д.?
Представьте пример входных данных в формате ниже
Замечания:
- Датчик проверяет данные с интервалами в 10 минут, но иногда данные могут отсутствовать из-за проблем с сетью и т. Д., Как показано строкой с NA.
- var1, var2, var3 являются предикторами, объясняющими переменными.
- fail_flag сообщает, произошел сбой или нет.
- У нас есть данные за последние 6 месяцев через каждые 10 минут для каждого идентификатора машины.
РЕДАКТИРОВАТЬ:
Ожидаемый выходной прогноз должен быть в следующем формате
Примечание: я хочу предсказать вероятность отказа для каждой из машин на следующие 30 дней на ежедневном уровне.
failure_flag
.