Более определенное обсуждение выбора переменных

Фон

Я занимаюсь клиническими исследованиями в области медицины и прошел несколько курсов по статистике. Я никогда не публиковал статью с использованием линейной / логистической регрессии и хотел бы правильно выбирать переменные. Интерпретируемость важна, поэтому нет причудливых методов машинного обучения. Я суммировал мое понимание выбора переменных - кто-то возражал бы пролить свет на какие-то заблуждения? Я нашел два (1) похожих (2) поста с CV на этот, но они не совсем отвечали на мои вопросы. Любые мысли будут высоко ценится! У меня есть 3 основных вопроса в конце.

Проблема и обсуждение

Моя типичная проблема регрессии / классификации имеет 200-300 наблюдений, частоту нежелательных событий 15% (если классификация) и информацию о 25 из 40 переменных, которые, как утверждается, оказывают "статистически значимый" эффект в литературе или делают правдоподобными смысл знания предметной области.

Я поместил «статистически значимый» в кавычки, потому что кажется, что все и их мать используют ступенчатую регрессию, но Harrell (3) и Flom (4), похоже, не нравятся по ряду веских причин. Это также подтверждается обсуждением в блоге Гельмана (5). Кажется, что единственное реальное время, которое является поэтапным, приемлемо, если это действительно исследовательский анализ или кто-то заинтересован в прогнозировании и использует схему перекрестной проверки. Тем более, что многие медицинские сопутствующие заболевания страдают от коллинеарности, а исследования страдают от небольшого размера выборки, я понимаю, что в литературе будет много ложных срабатываний; это также снижает вероятность того, что я буду доверять литературе в отношении потенциальных переменных для включения.

Другим популярным подходом является использование ряда одномерных регрессий / ассоциаций между предикторами и независимой переменной в качестве отправной точки. ниже определенного порога (скажем, р <0,2). Это кажется неправильным или, по крайней мере, вводящим в заблуждение по причинам, изложенным в этом сообщении StackExchange (6).

Наконец, автоматизированный подход, который кажется популярным в машинном обучении, заключается в использовании штрафов, таких как L1 (Лассо), L2 (Ридж) или L1 + L2 комбо (Elastic Net). Насколько я понимаю, они не имеют такой простой интерпретации, как OLS или логистическая регрессия.

Гельман + Хилл предлагает следующее:

В моем курсе статистики я также вспоминаю использование F-тестов или Analysis of Deviance для сравнения полных и вложенных моделей для выбора переменной модели / переменной по переменной. Это кажется разумным, но систематическая подгонка последовательных вложенных моделей для поиска переменных, вызывающих наибольшее падение отклонения на единицу измерения, кажется, что это может быть легко автоматизировано (поэтому я немного обеспокоен), а также, похоже, что она страдает от проблем порядка, в котором Вы проверяете включение переменной. Насколько я понимаю, это должно быть дополнено исследованием мультиколлинеарности и остаточных графиков (остаточные и прогнозируемые).

Вопросов:

Сводка Гельмана - путь? Что бы вы добавили или изменили в предложенной им стратегии?
Кроме того, чтобы думать о потенциальных взаимодействиях и трансформациях (которые кажутся предвзятыми / подверженными ошибкам / упущениям), есть ли другой способ обнаружить потенциальные? Мне был рекомендован многомерный адаптивный сплайн регрессии (MARS) , но мне сообщили, что нелинейности / преобразования не переводятся в одни и те же переменные в стандартной регрессионной модели.
Предположим, что моя цель очень проста: скажем: «Я хотел бы оценить связь X1 с Y, учитывая только X2». Достаточно ли просто регрессировать Y ~ X1 + X2, сообщить результат, без ссылки на фактическую прогностическую способность (как может быть измерено с помощью RMSE перекрестной проверки или мер точности)? Изменится ли это в зависимости от частоты событий или размера выборки или если R ^ 2 очень низок (я знаю, что R ^ 2 не годится, потому что вы всегда можете увеличить его путем переоснащения)? Как правило, меня больше интересует вывод / интерпретация, чем оптимизация предсказательной силы.

Пример заключения:

«Контролируя X2, X1 не был статистически значимо связан с Y относительно контрольного уровня X1». (коэффициент логистической регрессии)
«X1 не был статистически значимым предиктором Y, так как в модели падение отклонения было недостаточно относительно изменения df». (Анализ отклонений)

Всегда ли необходима перекрестная проверка? В этом случае можно также выполнить балансировку классов с помощью SMOTE, выборки и т. Д.

regression feature-selection model-selection

— sharper_image
источник

Справочные материалы 1. stats.stackexchange.com/questions/56725/… 2. stats.stackexchange.com/questions/221907/… 3. stats.stackexchange.com/questions/18214/… 4. lexjansen.com/pnwsug/2008/ DavidCassell-StoppingStepwise.pdf 5. andrewgelman.com/2014/06/02/hate-stepwise-regression 6. stats.stackexchange.com/questions/138860/…

— sharper_image

Может ли что-то быть автоматизировано (в настоящее время - до появления сильного ИИ), мне кажется, как красная сельдь.

— gung - Восстановить Монику

+1 за очень вдумчивый вопрос. Одна вещь, которую демонстрирует ваш обзор, заключается в том, что не существует стандартного рецепта или поваренной книги для выбора переменных. У каждого свой подход и набор «лучших» практик. Кроме того, существует очень важное различие между теоретической или популяционной моделью и эмпирически управляемой моделью - эти разные структуры редко совпадают, и их легко сопоставить. Ваша обеспокоенность по поводу «пропущенного» чего-либо не является необоснованной, но реальность такова, что окончательного, однозначного ответа просто не существует. Подходы, которые вы рассмотрели, подробно документированы, выберите один

— Майк Хантер

Харрелл, Флом и Коласса; тогда решено.

— gung - Восстановить Монику

Re Gelman & Hill's 4 (b): Harrell, RMS 1st edn, p60: «Последняя проблема с выбором переменных иллюстрируется сравнением этого подхода [пошагово] с разумным способом, которым многие экономисты развивают регрессионные модели. Экономисты часто используют эту стратегию удаления только тех переменных, которые незначительны и чьи коэффициенты регрессии имеют неопределенное направление ". И я, кажется, вспоминаю, что Штейерберг собирался написать статью об этом. [Постараюсь найти исх. когда я получу шанс.]

— Scortchi - Восстановить Монику

Ответы:

Эндрю Гельман - определенно уважаемое имя в мире статистики. Его принципы тесно связаны с некоторыми исследованиями причинно-следственной модели, которые были сделаны другими "громкими именами" в этой области. Но я думаю, что учитывая ваш интерес к клиническим исследованиям, вам следует обратиться к другим источникам.

Я свободно использую слово «причинно-следственная» (как и другие), потому что есть тонкая грань, которую мы должны провести между выполнением «причинно-следственного вывода» из данных наблюдений и утверждением причинно-следственных связей между переменными. Мы все согласны с тем, что РКИ являются основным способом оценки причинности. Мы редко приспосабливаемся к чему-либо в таких испытаниях в соответствии с предположением о рандомизации, за небольшим исключением ( Senn, 2004 ). Наблюдательные исследования имеют свою важность и полезность ( Weiss, 1989 ), и основанный на контрафакте подход к выводу данных наблюдений принимается как философски обоснованный подход к этому ( Höfler, 2005 ). Он часто очень близко приближает эффективность использования, измеренную в РКИ ( Anglemyer, 2014 ).

Поэтому я сосредоточусь на исследованиях по данным наблюдений. Моя точка зрения в отношении рекомендаций Гельмана такова: все предикторы в модели и их предполагаемые причинно-следственные связи между единичным проявлением интереса и единичным интересующим результатом должны быть указаны априори . Добавление и исключение ковариат, основанных на их взаимосвязи между набором основных результатов, фактически вызывает особый случай «статистической сетки Мюнхгаузена» ( Martin, 1984 ). Некоторые журналы (и эта тенденция завоевывает популярность ) будут в целом отклонять любую статью, которая использует ступенчатую регрессию для определения окончательной модели ( Babyak, 2004 ), и я думаю, что проблема рассматривается здесь аналогичным образом.

Обоснование включения и исключения ковариат в модели обсуждается в статье: Причинность Иудеи Перла ( Pearl, 2002 ). Это, пожалуй, один из лучших текстов для понимания принципов статистического вывода, регрессии и многомерной корректировки. Сандерс и Гренландия также освещают практически все, в частности их дискуссию о путанице, которая, к сожалению, исключена из этого списка рекомендаций ( Гренландия и др., 1999 г.).). Определенным ковариатам могут быть назначены метки на основе графической связи с причинно-следственной моделью. Такие обозначения, как прогностические переменные или точные переменные, требуют включения в качестве ковариат в статистических моделях. Медиаторы, коллайдеры или переменные за пределами причинно-следственной связи должны быть опущены. Определения этих терминов сделаны строгими с множеством примеров в Причинности.

Учитывая эту небольшую предысторию, я расскажу о пунктах один за другим.

Как правило, это разумный подход с одним ОСНОВНЫМ предупреждением: эти переменные НЕ должны быть посредниками результата. Если, например, вы проверяете взаимосвязь между курением и физической подготовкой и настраиваетесь на функцию легких, то это ослабляет эффект курения, потому что это напрямую влияет на физическую форму - это снижение функции легких. Это должно НЕпутать с путаницей, где третья переменная является причиной предиктора интереса И результата интереса. Confounders должны быть включены в модели. Кроме того, перенастройка может вызвать множественные формы смещения в анализах. Посредники и собеседники считаются таковыми НЕ из-за того, что найдено в анализах, а из-за того, что ВЫ СЧИТАЕТЕ, что ВЫ - предмет-эксперт (МСП). Если у вас есть 20 наблюдений на переменную или меньше, или 20 наблюдений на событие в периодическом событии или логистическом анализе, вы должны вместо этого рассмотреть условные методы.
Это отличный подход к энергосбережению, который не так сложен, как корректировка показателя склонности, SEM или факторный анализ. Я определенно рекомендую делать это, когда это возможно.
Я не согласен от всего сердца. Точка корректировки других переменных в анализе заключается в создании страт, для которых возможно сравнение. Неправильная спецификация отношений с собеседником, как правило, не приводит к чрезмерному анализу, поэтому остаточное смешение с пропущенными терминами взаимодействия, по моему опыту, не является большой проблемой. Тем не менее, вы можете рассмотреть условия взаимодействия между предиктором интереса и другими переменными в качестве последующего анализа. Это процедура генерирования гипотез, которая предназначена для уточнения любых возможных результатов (или их отсутствия) как. потенциально принадлежащие к подгруппе или б. включая механистическое взаимодействие между двумя экологическими и / или генетическими факторами.
Я также не согласен с этим от всего сердца. Это не совпадает с подтверждающим анализом на основе подхода к регрессии. Вы МСП. Анализ должен быть основан ВОПРОСОМ, а не ДАННЫМИ. С уверенностью укажите, что, по вашему мнению, происходит, на основе графического описания причинно-следственной модели (используя DAG и связанные с ней принципы из Pearl et al.), Затем выберите предикторы для вашей модели интереса, соответствия и обсуждения. Только в качестве вторичного анализа вы должны рассмотреть этот подход, даже вообще.

Роль машинного обучения во всем этом весьма спорна. В целом, машинное обучение ориентировано на прогнозирование, а не на умозаключения, которые являются различными подходами к анализу данных. Вы правы в том, что интерпретация эффектов от наказанной регрессии нелегко интерпретируется для нестатистического сообщества, в отличие от оценок из OLS, где 95% ДИ и оценки коэффициентов обеспечивают меру связи.

Интерпретация коэффициента из модели OLS Y ~ X проста: это уклон, ожидаемая разница в Y при сравнении групп, отличающихся на 1 единицу в X. В многомерной скорректированной модели Y ~ X1 + X2 мы изменяем это как условное Наклон: это ожидаемая разница в Y, сравнивая группы, отличающиеся на 1 единицу в X1, которые имеют одинаковое значение X2. Геометрически, корректировка на X2 приводит к различным слоям или «поперечным сечениям» трех пространств, где мы сравниваем X1 с Y, затем мы усредняем результаты по каждой из этих страт. В R coplotфункция очень полезна для визуализации таких отношений.

— Adamo
источник

Очень ценю ваш подробный комментарий - раньше мне никто не отвечал на мои вопросы так подробно. Я сейчас просматриваю ваши ссылки!

— sharper_image

(+1) По пункту № 1: G & H действительно говорит, что это «общие принципы построения регрессионных моделей для прогнозирования » [мой курсив], поэтому ваше предупреждение не должно применяться. (Возможно, те редкие курильщики с хорошей функцией легких действительно имеют тенденцию быть особенно здоровыми.) Когда они приступают к обсуждению причинно-следственных связей, они обращают на себя внимание (гл. 9.7).

— Scortchi - Восстановить Монику

(+1) Отличный ответ, AdamO! Оценивая, что вы уже проделали огромную работу, я хотел бы рассказать что-нибудь еще о текущем статусе принятия политики журнала, о которой вы упомянули. Я все еще впадаю в ярость, когда вижу слово «пошаговый», по крайней мере, в журналах JAMA. Можете ли вы привести редакционную статью об этой политике?

— Дэвид С. Норрис,

@ DavidC.Norris «Образовательные и психологические измерения» - это рассматриваемый журнал, и, увы, статья Бабяка обсуждает только автоматизированную ступенчатую регрессию. Я видел в некоторых статьях авторов, которые обсуждают свой «практический» подход к включению и переоснащению моделей как «ступенчатых» (хотя и не автоматизированных). Я бы сказал, что они правильно описали процедуру, которую они использовали, но у меня все еще есть серьезные претензии к этому подходу.

— AdamO

L \to A

$L \rightarrow A$

U_{1} \to L

$U_{1} \rightarrow L$

U_{1} \to A

$U_{1} \rightarrow A$

U_{2} \to Y

$U_{2} \rightarrow Y$

U_{2} \to L

$U_{2} \rightarrow L$

L

$L$

A

$A$

Y

$Y$

A

$A$

Y

$Y$

A

$A$

Y

$Y$

E [Y | A, L]

$E[Y|A,L]$

A - U_{1} - L - U_{2} - Y

$A-U_{1}-L-U_{2}-Y$

Этот великолепный вопрос и исчерпывающий ответ @ AdamO - яркий пример того, как CV регулярно обновляет мою веру в человечество. Здесь я буду стремиться предложить несколько способов оценить этот ответ (и вопрос ОП) в более широком контексте.

Во - первых, я осмелюсь утверждать , что все надежные рекомендации относительно статистической практики является предостережением в природе - про scriptive , а не до scriptive. Например, пункт 3 Гельмана и Хилла, хотя он поверхностно читается как совет активно что-то делать («обдумывать»), действительно лучше понимать как предостережение от отказа рассматривать взаимодействия с мощными эффектами. Интуитивно понятый как обращение к интуиции, связанной с выбором наиболее важных терминов в (многомерном) разложении в ряд Тейлора , мне кажется бесспорным.

Во-вторых, в то время как ОП занята получением лучшего образования, чем большинство докторов наук-биостатистов (следуя цитатам АдамО), ОП также может взять статистические модели Дэвида А. Фридмана и причинно-следственные связи [1], где здоровый вызов будет предположил, что регрессия должна быть нашим основным инструментом в клинических исследованиях. Я особенно рекомендую главу 3 «Статистические модели и кожаная обувь», которая также доступна в ранее опубликованной форме [2] здесь . (Не позволяйте названию журнала выключить вас; ключевые уроки извлечены из исследований Джона Сноу по холере. См. Также этот ответ , где эти уроки изложены в некоторых деталях.)

Наконец, и, возможно, это действительно является следствием для Фридмана, следует упомянуть, что пример «выводов», предложенный ФП, на самом деле относится к разделу « Результаты ». Было бы наиболее целесообразно как можно раньше рассмотреть вопрос о том, как сформулировать реальные разделы « Выводы и обсуждения» , чтобы они были доступны для врачей, средств массовой информации и даже для растущего числа пациентов и их сторонников, которые героически труд читать медицинскую литературу. Сосредоточение внимания на этой конечной точке будет полезно формировать техническую работу статистического анализа, и оно будет основываться на реальности мира, который он стремится описать, и потребностях, которые он намеревается обслуживать.

Фридман, Дэвид, Дэвид Кольер, Джасджит Сингх Сехон и Филипп Б. Старк. Статистические модели и причинно-следственные связи: диалог с общественными науками. Кембридж; Нью-Йорк: издательство Кембриджского университета, 2010.
Фридман, Дэвид А. «Статистические модели и кожаная обувь». Социологическая методология 21 (1991): 291–313. DOI: 10.2307 / 270939.

— Дэвид С. Норрис
источник