Фон
Я занимаюсь клиническими исследованиями в области медицины и прошел несколько курсов по статистике. Я никогда не публиковал статью с использованием линейной / логистической регрессии и хотел бы правильно выбирать переменные. Интерпретируемость важна, поэтому нет причудливых методов машинного обучения. Я суммировал мое понимание выбора переменных - кто-то возражал бы пролить свет на какие-то заблуждения? Я нашел два (1) похожих (2) поста с CV на этот, но они не совсем отвечали на мои вопросы. Любые мысли будут высоко ценится! У меня есть 3 основных вопроса в конце.
Проблема и обсуждение
Моя типичная проблема регрессии / классификации имеет 200-300 наблюдений, частоту нежелательных событий 15% (если классификация) и информацию о 25 из 40 переменных, которые, как утверждается, оказывают "статистически значимый" эффект в литературе или делают правдоподобными смысл знания предметной области.
Я поместил «статистически значимый» в кавычки, потому что кажется, что все и их мать используют ступенчатую регрессию, но Harrell (3) и Flom (4), похоже, не нравятся по ряду веских причин. Это также подтверждается обсуждением в блоге Гельмана (5). Кажется, что единственное реальное время, которое является поэтапным, приемлемо, если это действительно исследовательский анализ или кто-то заинтересован в прогнозировании и использует схему перекрестной проверки. Тем более, что многие медицинские сопутствующие заболевания страдают от коллинеарности, а исследования страдают от небольшого размера выборки, я понимаю, что в литературе будет много ложных срабатываний; это также снижает вероятность того, что я буду доверять литературе в отношении потенциальных переменных для включения.
Другим популярным подходом является использование ряда одномерных регрессий / ассоциаций между предикторами и независимой переменной в качестве отправной точки. ниже определенного порога (скажем, р <0,2). Это кажется неправильным или, по крайней мере, вводящим в заблуждение по причинам, изложенным в этом сообщении StackExchange (6).
Наконец, автоматизированный подход, который кажется популярным в машинном обучении, заключается в использовании штрафов, таких как L1 (Лассо), L2 (Ридж) или L1 + L2 комбо (Elastic Net). Насколько я понимаю, они не имеют такой простой интерпретации, как OLS или логистическая регрессия.
Гельман + Хилл предлагает следующее:
В моем курсе статистики я также вспоминаю использование F-тестов или Analysis of Deviance для сравнения полных и вложенных моделей для выбора переменной модели / переменной по переменной. Это кажется разумным, но систематическая подгонка последовательных вложенных моделей для поиска переменных, вызывающих наибольшее падение отклонения на единицу измерения, кажется, что это может быть легко автоматизировано (поэтому я немного обеспокоен), а также, похоже, что она страдает от проблем порядка, в котором Вы проверяете включение переменной. Насколько я понимаю, это должно быть дополнено исследованием мультиколлинеарности и остаточных графиков (остаточные и прогнозируемые).
Вопросов:
Сводка Гельмана - путь? Что бы вы добавили или изменили в предложенной им стратегии?
Кроме того, чтобы думать о потенциальных взаимодействиях и трансформациях (которые кажутся предвзятыми / подверженными ошибкам / упущениям), есть ли другой способ обнаружить потенциальные? Мне был рекомендован многомерный адаптивный сплайн регрессии (MARS) , но мне сообщили, что нелинейности / преобразования не переводятся в одни и те же переменные в стандартной регрессионной модели.
Предположим, что моя цель очень проста: скажем: «Я хотел бы оценить связь X1 с Y, учитывая только X2». Достаточно ли просто регрессировать Y ~ X1 + X2, сообщить результат, без ссылки на фактическую прогностическую способность (как может быть измерено с помощью RMSE перекрестной проверки или мер точности)? Изменится ли это в зависимости от частоты событий или размера выборки или если R ^ 2 очень низок (я знаю, что R ^ 2 не годится, потому что вы всегда можете увеличить его путем переоснащения)? Как правило, меня больше интересует вывод / интерпретация, чем оптимизация предсказательной силы.
Пример заключения:
- «Контролируя X2, X1 не был статистически значимо связан с Y относительно контрольного уровня X1». (коэффициент логистической регрессии)
- «X1 не был статистически значимым предиктором Y, так как в модели падение отклонения было недостаточно относительно изменения df». (Анализ отклонений)
Всегда ли необходима перекрестная проверка? В этом случае можно также выполнить балансировку классов с помощью SMOTE, выборки и т. Д.