Я думаю, что причинное моделирование является ключом к ответу на этот вопрос. С самого начала приходится сталкиваться с тем, чтобы определить правильный скорректированный / стратифицированный / контролируемый эффект интереса, прежде чем даже смотреть на данные. Если бы я оценил соотношение рост / емкость легких у взрослых, я бы учел статус курения, поскольку курение замедляет рост и влияет на емкость легких. Определяющие факторы - это переменные, которые причинно связаны с предиктором интереса и связаны с результатом интереса. См. Причинность от Иудеи Перл, 2-е изд. Нужно уточнить и усилить их анализ для правильных смешанных переменных, прежде чем процесс сбора данных даже начнет использовать рациональную логику и предварительные знания из предыдущих поисковых исследований.
р2для линейных моделей для этих переменных регулирования. Другим распространенным процессом в эпидемиологии является то, что переменные добавляются в модель только в том случае, если они изменяют оценку основного эффекта (например, отношение шансов или отношение рисков) как минимум на 10%. Хотя это «более» правильно, чем выбор модели на основе AIC, я все же считаю, что в этом подходе есть серьезные недостатки.
Моя рекомендация состоит в том, чтобы заранее указать желаемый анализ как часть гипотезы. Скорректированный по возрасту риск курения / рака является другим параметром и приводит к другому выводу в контролируемом исследовании, чем общий риск курения / рака. Использование предметных знаний является наилучшим способом выбора предикторов для корректировки в регрессионном анализе или в качестве стратификационных, сопоставляющих или взвешивающих переменных в различных других типах «контролируемых» анализов экспериментального и квазиэкспериментального дизайна.