Сравнивая важность различных наборов предикторов


13

Я советовал студенту-исследователю с конкретной проблемой, и я хотел, чтобы на этом сайте присутствовали другие.

Контекст:

Исследователь имел три типа предикторных переменных. Каждый тип содержал различное количество переменных-предикторов. Каждый предиктор был непрерывной переменной:

  • Социальные: S1, S2, S3, S4 (т.е. четыре предиктора)
  • Когнитивный: С1, С2 (т.е. два предиктора)
  • Поведение: B1, B2, B3 (т. Е. Три предиктора)

Переменная результата также была непрерывной. Выборка включала около 60 участников.

Исследователь хотел прокомментировать, какой тип предикторов важнее для объяснения переменной результата. Это было связано с более широкой теоретической озабоченностью относительно относительной важности этих типов предикторов.

Вопросов

  • Каков хороший способ оценить относительную важность одного набора предикторов относительно другого набора?
  • Какова хорошая стратегия для борьбы с тем фактом, что в каждом наборе есть разное количество предикторов?
  • Какие предостережения в интерпретации вы могли бы предложить?

Любые ссылки на примеры или обсуждение методов также приветствуются.

Ответы:


7

χ2L1,L2,L3χ2L1a,L2b,L3cχ2


Для подтверждения, ваш подход состоит в том, чтобы вычислить L1 как уменьшение отклонения (-2 *) в результате включения четырех социальных переменных, скорректированных на df этих четырех переменных? И аналогично для L2 и L3?
B_Miner

χ2

Вы также согласились бы с тем, что при разработке чисто статистического решения существует риск пропуска возможной всеобъемлющей проблемы, при которой все 3 группы предикторов могут измерять характеристики / поведение, возникающие одновременно. Без основы причинно-следственной причинно-следственной связи может быть невозможно окончательно распутать причинно-следственные связи в этой ситуации - какими бы ни были наши расчеты? (Я пытаюсь думать так, как это делает Джеймс Дэвис в «Логике причинного порядка».)
rolando2

Наверняка. Причинно-следственная цепочка должна быть понята еще до начала моделирования.
Фрэнк Харрелл

@FrankHarrell Применимы ли эти результаты к вероятности наказания? Имеет ли наказуемое правдоподобие какие-либо свойства, которые отличают его от правдоподобия в отношении этой меры переменной значимости? Не могли бы вы предложить какие-либо документы, которые описывают это более подробно? Благодарю.
Джулиет

7

Предложения

  • Вы можете выполнить отдельные множественные регрессии для каждого типа предиктора и сравнить по множественным регрессиям, скорректированному r-квадрату, обобщенному r-квадрату или некоторой другой объясненной мере отклонения, скорректированной с учетом скупости.
  • В качестве альтернативы вы можете изучить общую литературу по переменной важности ( см. Здесь для обсуждения со ссылками ). Это будет стимулировать внимание к важности отдельных предикторов.
  • В некоторых ситуациях иерархическая регрессия может обеспечить полезную основу. Вы бы ввели один тип переменной в один блок (например, когнитивные переменные), а во втором блоке другой тип (например, социальные переменные). Это помогло бы ответить на вопрос о том, предсказывает ли один тип переменной сверх другого типа.
  • В качестве побочного экзамена вы можете провести факторный анализ переменных предиктора, чтобы проверить, соответствуют ли корреляции между переменными предиктора назначению переменных типам.

Предостережения

  • Типы переменных, такие как когнитивные, социальные и поведенческие, представляют собой широкие классы переменных. Данное исследование всегда будет включать только подмножество возможных переменных, и обычно такое подмножество мало по сравнению с возможными переменными. Кроме того, измеренные переменные могут быть не самым надежным или действительным средством измерения предполагаемой конструкции. Таким образом, вы должны быть осторожны при выводе более широкого вывода об относительной важности данного типа переменной сверх того, что было фактически измерено.
  • Вам также необходимо учитывать любые отклонения в способе измерения зависимой переменной. В частности, в психологических исследованиях наблюдается тенденция к тому, чтобы показатели самоотчетов хорошо коррелировали с самоотчетами, способностями со способностями, другими - сообщать с другими отчетами и так далее. Проблема заключается в том, что способ измерения имеет большое влияние помимо реальной конструкции интереса. Таким образом, если зависимая переменная измеряется определенным образом (например, самоотчет), то не следует чрезмерно интерпретировать большие корреляции с одним типом предиктора, если этот тип также использует самоотчет.

Мне понравилось читать этот четкий, полезный ответ, и я собираюсь поделиться им с коллегой.
rolando2

6

значение

Первое, что нужно сделать, это ввести в действие «важность предикторов». Я предполагаю, что это означает что-то вроде «чувствительности среднего результата к изменениям значений предикторов». Поскольку ваши предикторы сгруппированы, то чувствительность среднего результата к группам предикторов более интересна, чем переменная при анализе переменных. Я оставляю это открытым, понимается ли чувствительность причинно. Эта проблема поднимается позже.

Три версии важности

Много различий объяснили : я предполагаю, что первым портом захода психологов, вероятно, является разложение дисперсии, приводящее к показателю того, насколько дисперсия результата объясняется структурой дисперсии-ковариации в каждой группе предикторов. Не будучи экспериментатором, я не могу здесь многое предложить, кроме как отметить, что вся концепция «объяснение дисперсии» на мой вкус немного необоснованна, даже без вопроса «какая сумма каких квадратов». Другие могут не согласиться и развивать его дальше.

Большие стандартизированные коэффициенты : SPSS предлагает (неправильно названную) бета-версию для измерения воздействия способом, сопоставимым по переменной. Есть несколько причин не использовать это, обсуждаемые в учебнике регрессии Фокса, здесь и в других местах. Все применяются здесь. Это также игнорирует групповую структуру.

С другой стороны, я полагаю, что можно стандартизировать предикторы в группах и использовать ковариационную информацию, чтобы судить о влиянии одного стандартного отклонения во всех из них. Лично девиз: «если что-то не стоит делать, не стоит делать хорошо», мой интерес к этому уменьшается.

Большие предельные эффекты : Другой подход заключается в том, чтобы оставаться в масштабе измерений и рассчитывать предельные эффекты между тщательно выбранными точками выборки. Поскольку вас интересуют группы, полезно выбирать точки для изменения групп переменных, а не отдельных, например, манипулируя обеими когнитивными переменными одновременно. (Много возможностей для классных участков здесь). Основная статья здесь . effectsПакет в R будет делать это красиво.

Здесь есть две оговорки:

  1. Если вы сделаете это, вы захотите обратить внимание на то, что вы не выбираете две когнитивные переменные, которые, хотя и являются индивидуально правдоподобными, например, медианы, совместно далеки от любого предметного наблюдения.

  2. Некоторые переменные даже теоретически не поддаются манипулированию, поэтому интерпретация предельных эффектов как причинно-следственных связей является более деликатной, хотя и полезной.

Разное количество предикторов

Проблемы возникают из-за ковариационной структуры сгруппированных переменных, о которой мы обычно стараемся не беспокоиться, а для этой задачи.

В частности, при расчете предельных эффектов (или стандартизированных по этому вопросу коэффициентов) на группы, а не на отдельные переменные, прокрутка размерности для более крупных групп облегчит сравнения для областей, где нет случаев. Больше предикторов в группе приводит к более малонаселенному пространству, поэтому любая мера важности будет зависеть больше от предположений модели и меньше от наблюдений (но не скажу вам, что ...) Но это те же проблемы, что и на этапе подбора модели действительно. Конечно, те же, которые возникают при оценке причинно-следственных связей на основе моделей.


2

Одним из методов является объединение наборов переменных в переменные пучка. Эти методы широко используются в социологии и смежных областях.

Refs:

Whitt, Hugh P. 1986. «Коэффициент снопа: упрощенный и расширенный подход». Социологические исследования 15: 174-189.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.