Обучение, тестирование, валидация в задачах анализа выживания


14

Я просматривал различные темы здесь, но не думаю, что на мой точный вопрос дан ответ.

У меня есть набор данных из ~ 50 000 студентов и их время для отсева. Я собираюсь выполнить пропорциональную регрессию рисков с большим количеством потенциальных ковариат. Я также собираюсь провести логистическую регрессию по отсеву / пребыванию в школе. Основной целью будет прогнозирование для новых групп студентов, но у нас нет оснований полагать, что они будут сильно отличаться от прошлогодней когорты.

Обычно у меня нет такой роскоши данных, и я подгоняю модель под какое-то наказание, но на этот раз я решил разделить int и обучающие наборы данных, а затем сделать выбор переменных в обучающем наборе; затем используя набор тестовых данных для оценки параметров и прогнозирующей способности.

Это хорошая стратегия? Если нет, то что лучше?

Цитаты приветствуются, но не обязательно.

Ответы:


8

С аналогичной частотой исходов я обнаружил, что разделение данных может работать, если . Кроме того, он обеспечивает непредвзятую оценку производительности модели, надлежащим образом наказывая за выбор модели (если вам действительно нужен выбор модели; наказание с большей вероятностью приведет к получению лучшей модели), если вы используете тестовый образец только один раз. НО не используйте тестовый образец для переоценки параметров. Разделение данных основывается на модели, построенной с использованием обучающей выборки, которая помещается в «глубокую заморозку» и применяется к тестовой выборке без подстройки.N>20,000


Благодарю. Вы бы порекомендовали 80-20? 90-10? Что-то другое? Любые ссылки на это?
Питер Флом - Восстановить Монику

2
Я не поспевал за литературой относительно оптимальной конфигурации разделения. Но применяются некоторые общие принципы. Для проверочного образца вам нужно достаточно большого размера, чтобы вы могли с высокой точностью оценить калибровочную кривую, а затем убедиться, что то, что осталось, более чем достаточно для надежного подбора модели (например, с использованием соотношения событий: кандидат 20: 1). параметры, если вы не штрафуете). N
Фрэнк Харрелл

3

Я сам искал эту статью для аналогичной задачи перекрестной проверки прогноза выживания. Хорошие моменты начинаются с Главы 2.


Это, кажется, сравнивает 5-кратное с оценкой на основе CV (и делает вывод, что 5-кратное лучше). Но меня больше интересовало просто разделение данных на 2 части и использование одной для проверки другой.
Питер Флом - Восстановить Монику

1
Вывод, который я обнаружил из этого и почему меня изначально привлекла эта статья, заключался в том, как бороться с цензурой в прогнозах на выживание, т.е. какую функцию потерь использовать (хотя при перечитывании вашего вопроса у вас может не быть цензуры).
Cam.Davidson.Pilon

У меня действительно есть цензура, и диссертация интересна, но я не думаю, что это ответ на мой вопрос.
Питер Флом - Восстановить Монику

1

С тех пор я нашел эту статью, которая не только отвечает на мой вопрос, но и предоставляет метод для определения оптимального разделения для конкретных наборов данных. Я нашел это благодаря использованию @FrankHarrell термина «оптимальная конфигурация разделения», который я затем гуглил.


2
Питер. Я думаю, что в статье использовалось неправильное правило подсчета очков. Различные результаты могут быть получены при использовании правильных правил оценки. Также в статье не рассматривается «волатильность» анализа. При рассмотрении небольших общих размеров выборки повторение процесса с использованием другого случайного разбиения приведет к появлению очень разных моделей и значительной разной точности по сравнению с первым разделением. Я вижу, что это очень нежелательно.
Фрэнк Харрелл

@FrankHarrell: Я понимаю вашу точку зрения, и это действительно очень хорошая мысль. Что тогда вы рекомендуете делать? Peform Monte Carlo проводит тренировку по разделению на поезда и тесты, а затем на каждом этапе выполняет ix k-folds CV (или начальную загрузку)? Но тогда это загрязнило бы весь набор данных .... Я не вижу лучшего решения, чем поиск подходящего способа разбить набор данных на наборы поездов и тестов (каковы будут критерии?) Мне просто не удобно использовать все набор данных для обучения и проверки (с использованием CV или загрузки) моделей (из которых одна (или несколько) будет использоваться для прогнозирования неизвестных выходных значений на основе некоторых входных данных).
jpcgandre

Я говорил об этом в посте, который вы только что разместили на другой странице темы.
Фрэнк Харрелл
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.