Мне кажется, что ваш вопрос в более общем плане касается другого вида валидации для прогнозирующей модели: перекрестная валидация в некоторой степени связана с внутренней валидностью или, по крайней мере, с начальной стадией моделирования, тогда как рисование причинно-следственных связей в более широкой популяции более связано к внешней действительности, Под этим (и в качестве обновления после замечательного замечания @ Бретта) я подразумеваю, что мы обычно строим модель на рабочей выборке, предполагая гипотетическую концептуальную модель (то есть мы определяем отношения между предикторами и интересующими их результатами), и мы пытаемся получить надежные оценки с минимальной частотой ошибок классификации или минимальной ошибкой прогнозирования. Надеемся, что чем лучше будет работать модель, тем лучше она позволит нам прогнозировать результаты на невидимых данных; Тем не менее, CV ничего не говорит о «достоверности» или адекватности предполагаемых причинно-следственных связей. Мы, безусловно, могли бы добиться достойных результатов с моделью, в которой некоторые эффекты умеренности и / или посредничества игнорируются или просто не известны заранее.
Я хочу сказать, что независимо от того, какой метод вы используете для проверки вашей модели (и метод удержания, безусловно, не самый лучший, но все же он широко используется в эпидемиологических исследованиях для облегчения проблем, возникающих при поэтапном построении модели), вы работаете с одной и той же выборкой. (который мы предполагаем, является представителем большей численности населения). Напротив, обобщение результатов и причинно-следственных связей, выведенных таким образом на новые выборки или правдоподобно связанную популяцию, обычно проводится исследованиями репликации . Это гарантирует, что мы можем безопасно проверить предсказательную способность нашей модели в «суперпопуляции», которая имеет больший диапазон индивидуальных вариаций и может демонстрировать другие потенциальные факторы, представляющие интерес.
Ваша модель может предоставлять правильные прогнозы для вашего рабочего образца, и она включает в себя все потенциальные факторы, которые могут возникнуть; однако, возможно, что он не будет работать так же хорошо с новыми данными, просто потому, что на промежуточном причинном пути появляются другие факторы, которые не были идентифицированы при построении исходной модели. Это может произойти, если некоторые из предикторов и причинно-следственных связей, выведенных из них, зависят, например, от конкретного исследовательского центра, в который были набраны пациенты.
В генетической эпидемиологии многие исследования геномных ассоциаций не воспроизводятся только потому, что мы пытаемся смоделировать сложные заболевания с упрощенным взглядом на причинно-следственные связи между маркерами ДНК и наблюдаемым фенотипом, в то время как весьма вероятно, что ген-ген (эпистаз), генные заболевания (плейотропия), генная среда и популяционная субструктура - все это играет роль, но посмотрите, например, на валидацию, увеличение и уточнение сигналов ассоциации всего генома(Ioannidis et al., Nature Reviews Genetics, 2009 10). Таким образом, мы можем создать эффективную модель для учета наблюдаемых кросс-вариаций между набором генетических маркеров (с очень низким и редким размером эффекта) и многовариантной картиной наблюдаемых фенотипов (например, объем белого / серого вещества или локализованные действия в головном мозге, наблюдаемые с помощью фМРТ, реакции на нейропсихологическую оценку или инвентаризацию личности), но они все равно не будут работать так, как ожидалось для независимой выборки.
Что касается общего справочника по этой теме, могу порекомендовать главу 17 и часть III моделей клинического прогнозирования от EW Steyerberg (Springer, 2009). Мне также нравится следующая статья от Иоаннидиса:
Йоаннидис, JPA, Почему большинство опубликованных результатов исследований являются ложными? PLoS Med. 2005 2 (8): с124