Использовать ли моделирование структурных уравнений для анализа наблюдательных исследований в психологии


20

Я заметил, что эта проблема часто возникает в статистических консультациях, и я хотел узнать ваши мысли.

контекст

Я часто говорю со студентами-исследователями, которые провели исследование примерно следующим образом:

  • Наблюдательное исследование
  • Размер выборки может быть 100, 200, 300 и т. Д.
  • Были измерены множественные психологические шкалы (например, возможно, тревога, депрессия, личность, отношения, другие клинические шкалы, возможно, интеллект и т. Д.)

Исследователи прочитали соответствующую литературу и имеют некоторые мысли о возможных причинных процессах. Часто будет некоторая общая концептуализация переменных в антецеденты, переменные процесса и переменные результата. Они также часто слышали, что моделирование структурных уравнений больше подходит для тестирования общих моделей отношений между набором переменных, которые они изучают.

Вопрос

  • Как вы думаете, при каких условиях моделирование структурных уравнений является подходящим методом для анализа таких исследований?
  • Если бы вы не рекомендовали моделирование структурных уравнений, какие альтернативные методы вы бы порекомендовали?
  • Какой совет вы бы дали исследователям, рассматривающим возможность использования моделирования структурных уравнений в таких случаях?

Ответы:


14

Мой отказ от ответственности : я понимаю, что этот вопрос некоторое время оставался бездействующим, но кажется, что он важный и тот, который вы намеревались получить несколько ответов. Я - Социальный Психолог, и, судя по всему, с такими конструкциями, наверное, немного удобнее, чем Хенрик (хотя его опасения по поводу причинно-следственных связей абсолютно законны).

При каких условиях SEM является подходящей техникой анализа данных?

Для меня этот вопрос фактически состоит из двух отдельных подвопросов:

  1. Зачем использовать SEM в первую очередь?
  2. Если исследователь решил использовать SEM, каковы требования к данным для использования SEM?

Зачем использовать SEM в первую очередь?

SEM является более тонким и сложным - и, следовательно, менее доступным - подходом к анализу данных, чем другие, более типичные, общие подходы линейного моделирования (например, ANOVA, корреляции, регрессия и их расширения и т. Д.). Все, что вы можете делать с этими подходами, вы можете делать с SEM.

Таким образом, я думаю, что будущие пользователи должны сначала сильно оценить, почему они вынуждены использовать SEM в первую очередь. Безусловно, SEM предлагает некоторые мощные преимущества для своих пользователей, но я рассмотрел статьи, в которых ни одно из этих преимуществ не используется, и конечный продукт представляет собой раздел анализа данных в статье, который типичным читателям излишне труднее понять , Просто для исследователя или читателя это просто не стоит хлопот, если преимущества SEM и других подходов к анализу данных не используются.

Итак, что я вижу в качестве основных преимуществ подхода SEM? Большие, на мой взгляд, это:

(1) Моделирование скрытых переменных : SEM позволяет пользователям исследовать структурные отношения (дисперсии, ковариации / корреляции, регрессии, различия в среднем по группе) среди ненаблюдаемых скрытых переменных, которые, по сути, являются общей ковариацией между группой переменных (например, элементами из состояния тревоги). измерить ваши ученики могут использовать).

Большая точка продажи для анализа скрытых переменных (например, скрытой тревоги) в сравнении с наблюдаемой оценкой конструкта (например, среднего значения элементов тревоги) заключается в том, что латентные переменные не содержат ошибок - скрытые переменные образуются из общей ковариации, и ошибка теоретизируется на ковариацию ни с чем. Это приводит к увеличению статистической мощности, поскольку пользователям больше не нужно беспокоиться о ненадежности измерений, ослабляя эффекты, которые они пытаются смоделировать.

Еще одна, более недооцененная причина рассмотреть использование SEM - в некоторых случаях это более надежный способ проверки наших теорий о конструкциях. Если бы ваши ученики, например, использовали три разных показателя тревоги, не лучше ли понять причины / последствия общего между этими тремя показателями - предположительно, тревогой - в рамках SEM, вместо того, чтобы давать какое-либо преимущество частности , одна мера , как в меру беспокойства?

(2) Моделирование нескольких зависимых переменныхДаже если кто-то не собирается использовать SEM для моделирования скрытых переменных, он все равно может быть весьма полезен в качестве основы для одновременного анализа нескольких исходных переменных в одной модели. Например, возможно, ваши студенты заинтересованы в изучении того, как одни и те же предикторы связаны с рядом различных клинически значимых результатов (например, тревога, депрессия, одиночество, чувство собственного достоинства и т. Д.). Зачем запускать четыре отдельные модели (увеличивая частоту появления ошибок типа I), когда вы можете просто запустить одну модель для всех четырех результатов, которые вас интересуют? Это также является причиной для использования SEM при работе с определенными типами зависимых данных, когда несколько зависимых респондентов могут давать как предикторные, так и исходные ответы (например, двоичные данные; см. Kenny, Kashy, and Cook, 2006,

(3) Моделирование допущений, вместо того, чтобы делать их : со многими другими подходами к анализу данных (например, ANOVA, корреляция, регрессия), мы делаем тонну предположений о свойствах данных, с которыми мы имеем дело - таких как однородность дисперсия / гомоскедастичности. SEM (обычно в сочетании с подходом со скрытой переменной) позволяет пользователям фактически моделировать параметры дисперсии одновременно со средними и / или корреляционными / регрессивными путями. Это означает, что пользователи могут начать теоретизировать и проверять гипотезу об изменчивости, в дополнение к средним различиям / коварируемости, вместо того, чтобы просто рассматривать изменчивость как назойливое предположение, связанное с допущением.

Другое проверяемое предположение, при сравнении средних уровней группы по некоторой переменной, заключается в том, означает ли эта переменная на самом деле одно и то же для каждой группы, что в литературе SEM называется инвариантностью измерений (см. Vandenberg & Lance, 2000, для обзора этого процесса). ). Если это так, то сравнение средних уровней этой переменной является действительным, но если у групп существенно различное понимание того, что есть, сравнение средних уровней между группами сомнительно. Мы делаем это конкретное предположение неявно все время в исследованиях с использованием групповых сравнений.

И затем есть предположение, что когда вы усредняете или суммируете баллы по предметам (например, по показателю тревожности) для создания агрегированного индекса, то каждый предмет является одинаково хорошим показателем базовой конструкции (потому что каждый предмет одинаково взвешивается в усреднения / суммирования). SEM устраняет это предположение при использовании скрытых переменных, оценивая различные значения коэффициента загрузки (связь между элементом и скрытой переменной) для каждого элемента.

Наконец, другие предположения о данных (например, нормальность), хотя они все еще важны для SEM, могут управляться (например, с помощью «надежных» оценщиков, см. Finney & DiStefano, 2008), когда данные не соответствуют определенные критерии (низкий уровень асимметрии и эксцесс).

(4) Определение ограничений моделиНа мой взгляд, последняя важная причина, по которой я должен рассмотреть возможность использования SEM, заключается в том, что он позволяет очень легко протестировать определенные гипотезы о модели данных, которые могут у вас возникнуть, путем принудительного («ограничения» в терминах SEM) определенных путей в вашей модели. принять конкретные значения и изучить, как это влияет на соответствие вашей модели вашим данным. Некоторые примеры включают: (A) ограничение пути регрессии до нуля, чтобы проверить, необходимо ли это в модели; (B) содержит несколько путей регрессии, которые должны быть равны по величине (например, является ли ассоциативная сила для некоторого предиктора примерно равной для тревоги и депрессии?); (C) ограничение параметров измерения, необходимых для оценки инвариантности измерения (описано выше); (D) ограничение регрессионного пути равным по силе между двумя различными группами,

Каковы требования к данным для SEM?

Требования к данным для SEM довольно скромны; вам нужен адекватный размер выборки, и чтобы ваши данные соответствовали предположениям оценщика модели, который вы выбрали (типично Максимальное правдоподобие).

Трудно дать рекомендацию «один размер подходит всем» для размера выборки. Основываясь на некоторых простых имитациях, Литтл (2013) предполагает, что для очень простых моделей может быть достаточно 100-150 наблюдений, но потребности в объеме выборки будут увеличиваться по мере усложнения моделей и / или надежности / достоверности переменных, используемых в модель уменьшается. Если сложность модели вызывает беспокойство, вы можете рассмотреть возможность распределения индикаторов ваших скрытых переменных, но не все включены в этот подход (Little, Cunningham, Shahar & & Widaman, 2002). Но, вообще говоря, при прочих равных, большие выборки (я стремлюсь к минимуму 200 в своих исследованиях) лучше

Что касается соответствия предположениям выбранного оценщика, обычно это довольно легко оценить (например, посмотрите на значения асимметрии и эксцесса для оценки максимального правдоподобия). И даже если данные отклоняются от предполагаемых свойств, исследование может рассмотреть вопрос об использовании «надежного» оценщика (Finney & DiStefano, 2008) или оценщика, который предполагает данные другого типа (например, категориальный оценщик, такой как диагонально взвешенный наименьший квадраты).

Альтернативы SEM для анализа данных?

Если исследователь не собирается использовать преимущества, обеспечиваемые подходом SEM, который я выделил выше, я бы рекомендовал придерживаться более простой и доступной версии этого конкретного анализа (например, -тесты, ANOVA, корреляционный анализ, регрессионные модели [включая модели медиации, модерации и условного процесса]). Читатели лучше знакомы с ними, и поэтому им будет легче их понять. Просто не стоит путать читателей с мелочами SEM, если вы, по сути, используете SEM с тем же эффектом, что и более простой аналитический подход.

Совет исследователям, рассматривающим возможность использования SEM?

Для новичков в SEM:

  1. Получите исчерпывающий доступный текст SEM. Мне нравятся Beaujean (2014), Brown (2015; более раннее издание тоже солидно) и Little (2013; хорошее общее представление, хотя позднее оно специально фокусируется на продольных моделях).
  2. Узнайте, как использовать lavaanпакет для R(Rosseel, 2012). Его синтаксис так же прост, как и синтаксис SEM, его функциональность достаточно широка для потребностей SEM многих людей (определенно для начинающих), и он бесплатный. Книга Beaujean дает большое одновременное введение в SEM и lavaanпакет.
  3. Проконсультируйтесь / используйте CrossValidated и StacksOverflow регулярно. При подборе моделей SEM могут произойти непредвиденные вещи, и есть вероятность, что многие из странных вещей, с которыми вы можете столкнуться, уже были описаны и устранены в стеках.
  4. Как указывает Херик, обратите внимание, что то, что вы указываете модель, которая подразумевает причинно-следственные связи, не означает, что SEM помогает установить причинность в перекрестном / неэкспериментальном исследовании. Кроме того, полностью стоит рассмотреть вопрос об использовании SEM для анализа данных из продольных и / или экспериментальных проектов.

А для тех, кто начинает реально использовать SEM:

  1. В какой-то момент у вас возникнет соблазн задавать коррелированные невязки невольно, чтобы улучшить соответствие вашей модели. Не. По крайней мере, без хорошей априорной причины. Чаще всего лекарством является более крупный образец или более простая модель.
  2. Избегайте использования метода идентификации с маркером-переменной для скрытых переменных (т. Е. Фиксируя загрузку первого фактора до 1). Он предпочитает этот индикатор как «золотой стандарт» вашей скрытой переменной, когда в большинстве случаев нет оснований предполагать, что это так. Имейте в виду, что это настройка идентификации по умолчанию в большинстве программ.

Ссылки

Божан А.А. (2014). Моделирование скрытых переменных с использованием R: пошаговое руководство . Нью-Йорк, Нью-Йорк: Routledge.

Браун, ТА (2015). Подтверждающий факторный анализ для прикладных исследователей (2-е издание). Нью-Йорк, Нью-Йорк: Гилфорд Пресс.

Finney, SJ & DiStefano, C. (2008). Ненормальные и категориальные данные в моделировании структурных уравнений. В GR Hancock & RD Mueller (Eds.), Моделирование структурных уравнений: второй курс (стр. 269-314). Издательство век информации.

Кенни Д.А., Каши Д.А. и Кук, WL (2006). Анализ двоичных данных . Нью-Йорк, Нью-Йорк: Гилфорд Пресс.

Литтл, ТД (2013). Моделирование продольного структурного уравнения . Нью-Йорк, Нью-Йорк: Гилфорд Пресс.

Little, TD, Cunningham, WA, Shahar, G. & Widaman, KF (2002). Посылать или не отправлять: Изучение вопроса, взвешивание достоинств. Моделирование структурных уравнений , 9 , 151-173.

Россель Ю. (2012). lavaan: пакет R для моделирования структурных уравнений. Журнал статистического программного обеспечения , 48 (2), 1-36.

Vandenberg, RJ & Lance, CE (2000). Обзор и обобщение литературы по инвариантности измерений: предложения, практика и рекомендации для исследователей организации. Организационные методы исследования , 3 , 4-70.


1
+1 хороший ответ. Я с нетерпением жду ваших других вкладов!
Момо

1
+1 Отличный ответ. Я согласен с большинством из того, что вы говорите. Одно замечание: я не думаю, что SEM обладает большей статистической силой, потому что он оценивает взаимосвязь между скрытыми переменными. В общем, я думаю, что если что-то SEM вносит дополнительный источник ошибок. Таким образом, существует обычная ошибка в оценке наблюдаемой переменной и дополнительная ошибка в оценке отклонения ошибки или других элементов скрытой структуры.
Джером Энглим

Соответственно, я бы утверждал, что SEM, моделируя ошибку в уникальных факторах, фактически увеличивает мощность. Я думаю, это легче всего продемонстрировать, сравнивая модель SEM групповых различий в скрытых средствах с моделью наблюдаемых средних различий одни и те же данные. Если вы запускаете SEM с использованием подхода кодирования эффектов (см. Little, Slegers, & Card, 2006), ваши латентные средние значения для каждой группы примут то же значение, что и ваши наблюдаемые средние значения. Но отклонения для каждой группы в модели SEM будут меньше, чем в наблюдаемой, что дает больший размер эффекта, который легче обнаружить.
jsakaluk

Я понимаю, что приведенный выше комментарий может быть не лучшим способом ответить на вашу проблему; если вы зададите отдельный вопрос о SEM и включении CV, я буду рад опубликовать более подробный ответ с некоторыми примерами вывода, которые могут быть полезны.
jsakaluk

12

Отказ от ответственности: я считаю себя экспериментальным психологом с акцентом на экспериментальном. Следовательно, у меня есть естественное беспокойство с проектами как это.

Чтобы ответить на ваш первый и второй вопрос: я думаю, что для такой конструкции SEM или, в зависимости от количества задействованных переменных, анализ посредничества или модерации является естественным способом работы с данными. Я понятия не имею, что еще можно порекомендовать.

Третий вопрос: я думаю, что главное преимущество такого дизайна - это главный недостаток. А именно , что вы (учитывая достаточное количество переменных) будет найти существенные результаты. Вопрос в том, как вы интерпретируете эти результаты.

То есть вы можете взглянуть на так много гипотез (некоторые еще менее вдохновлены соответствующей литературой), что вы, вероятно, найдете что-то существенное (не в буквальном смысле отказа от SEM), которое будет интерпретируемым в психологическом смысле. Поэтому мой совет всем, кто делает это, будет двойным:

  1. Подчеркните проблему с причинно-следственной интерпретацией этих проектов. Я не эксперт в этом, но знаю, что полностью поперечный дизайн вряд ли можно интерпретировать как причинный, независимо от того, насколько интуитивно правдоподобно это может звучать. Для причинных интерпретаций необходимы более продвинутые конструкции, такие как узлы с перекрестными лагами или подобные вещи. Я думаю, что работы Shadish, Cook & Campbell (или, по крайней мере, некоторые из них) являются хорошим источником для дальнейшего обсуждения этих тем.
  2. Подчеркните индивидуальную ответственность и научную этику. Если вы видите, что ваши первоначальные идеи не поддерживаются данными, это естественный следующий шаг для дальнейшей проверки данных. Тем не менее, вы никогда не должны полагаться на HARKing (гипотезы после того, как результаты известны; Kerr, 1998 , см. Также Maxwell, 2004 ). То есть вы должны подчеркнуть, что существует тонкая грань между разумной адаптацией ваших гипотез с учетом данных и вишневым подбором значимых результатов.

1
и Бернд: тоже самое! Отличная аббревиатура, и я надеюсь, что это завоевывает популярность.
rolando2
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.