Я тренирую логистическую регрессию, чтобы предсказать, какие бегуны, скорее всего, закончат изнурительную гонку на выносливость.
Очень немногие бегуны заканчивают эту гонку, поэтому у меня серьезный дисбаланс классов и небольшой пример успеха (возможно, несколько десятков). Я чувствую, что могу получить хороший «сигнал» от десятков бегунов, которые почти сделали это. (Мои тренировочные данные имеют не только завершение, но также и то, как далеко те, кто не закончил, на самом деле сделали это.) Поэтому мне интересно, является ли это ужасной идеей или не включать какой-то «частичный зачет». Я придумал пару функций для частичного кредитования, линейного изменения и логистической кривой, которым можно было бы задавать различные параметры.
Единственная разница с регрессией состоит в том, что я буду использовать данные обучения для прогнозирования измененного, непрерывного результата вместо двоичного результата. Сравнивая их прогнозы на тестовом наборе (с использованием бинарного ответа), я получил довольно неубедительные результаты - частичный логистический кредит, казалось, незначительно улучшал R-квадрат, AUC, P / R, но это была всего лишь одна попытка одного варианта использования с использованием маленький образец.
Меня не волнует, что прогнозы будут одинаково смещены к завершению - меня интересует правильное ранжирование участников по их вероятности финиша или, возможно, даже оценка их относительной вероятности финиша.
Я понимаю, что логистическая регрессия предполагает линейную связь между предикторами и логарифмом отношения шансов, и, очевидно, это отношение не имеет реальной интерпретации, если я начну портить результаты. Я уверен, что это не умно с теоретической точки зрения, но это может помочь получить некоторый дополнительный сигнал и предотвратить переоснащение. (У меня почти столько же предикторов, сколько и успехов, поэтому может быть полезно использовать отношения с частичным завершением для проверки отношений с полным завершением).
Используется ли когда-либо этот подход в ответственной практике?
В любом случае, существуют ли другие типы моделей (может быть, что-то, что явно моделирует уровень опасности, применяемый на расстоянии вместо времени), который может лучше подходить для такого типа анализа?