Какова польза от рассмотрения фактора как случайного в смешанной модели?


24

У меня есть проблема, заключающаяся в использовании преимуществ маркировки модельного фактора как случайного по нескольким причинам. Мне кажется, что почти во всех случаях оптимальное решение состоит в том, чтобы рассматривать все факторы как фиксированные.

Во-первых, различие между фиксированным и случайным совершенно произвольно. Стандартное объяснение состоит в том, что, если кто-то заинтересован в конкретных экспериментальных единицах как таковых, то следует использовать фиксированные эффекты, а если кого-то интересует популяция, представленная экспериментальными единицами, следует использовать случайные эффекты. Это не очень помогает, поскольку подразумевает, что можно чередовать фиксированные и случайные представления, даже если данные и план эксперимента остаются неизменными. Кроме того, это определение способствует иллюзии, что, если фактор помечен как случайный, вывод, полученный из модели, каким-то образом более применим к совокупности, чем в случае, когда фактор помечен как фиксированный. Наконец, Гельман показывает, что различие между фиксированным и случайным даже на уровне определений, потому что есть еще четыре определения того, что такое фиксированные и случайные эффекты.

Во-вторых, оценка смешанных моделей довольно сложна. В отличие от «чисто фиксированной» модели, существует более чем несколько способов получения значений p. Профессор Бейтс, который реализовал оценку REML в пакете lme4 в R, зашел так далеко, что отказался сообщать значения p в целом ,

В-третьих, существует неясная проблема того, сколько неявных параметров вводится случайным фактором. Следующий пример - это моя адаптация в Burnham & Anderson, « Выбор модели и вывод из нескольких моделей: практический информационно-теоретический подход» . С точки зрения компромисса смещения дисперсии роль случайных эффектов может быть проиллюстрирована следующим образом. Рассмотрим односторонний ANOVA с K обработками и эффектами K основных факторов, из которых являются оценочными. Термин ошибки имеет распределение . Если число наблюдений фиксировано, компромисс между дисперсией и смещением будет ухудшаться при увеличенииПредположим, мы говорим, чтоН ( 0 , σ 2 ) КK1N(0,σ2)KKОсновные эффекты взяты из распределения . Соответствующая модель будет иметь сложность, которая находится где-то между фиксированной (переоборудованной) версией и недостаточно приспособленной моделью, которая содержит только перехват. Количество эффективных параметров в фиксированной моделиN(0,σK)

1intercept+(K1)maineffects+1σ=K+1.

Число эффективных параметров в случайной модели не менее трех: . Кроме того, случайная модель имеет ряд «скрытых» параметров, подразумеваемых распределительным (в данном случае нормальным) ограничением, накладываемым на основные эффекты.intercept,σ,σK

В частности, если есть фактор с двумя уровнями, не имеет смысла называть его случайным, даже если мы точно знаем, что его уровни были выбраны случайным образом из некоторой популяции. Это связано с тем, что версия с фиксированным эффектом имеет три параметра, а версия с произвольным эффектом имеет более трех параметров. В этом случае случайная модель оказывается более сложной, чем фиксированная версия. По-видимому, переход от фиксированной к случайной версии более обоснован для большихK, Однако количество «скрытых» параметров в случайной модели неизвестно, поэтому невозможно сравнить фиксированные и случайные версии на основе информационных критериев, таких как AIC. Поэтому, хотя этот пример освещает вклад случайных эффектов (возможность лучшего компромисса с отклонениями), он также показывает, что трудно сказать, когда оправданно перемаркировать фактор с фиксированного на случайный.

Ни одна из вышеперечисленных проблем не присутствует в «чисто фиксированной» модели. Поэтому я хочу спросить:

  1. Кто-нибудь может привести пример, когда произошло что-то очень плохое, когда случайный фактор использовался, как если бы он был исправлен? Я полагаю, что должны быть некоторые исследования моделирования, которые решают проблему явно.

  2. Есть ли проверенный количественный метод, чтобы решить, когда имеет смысл переключаться с фиксированной на случайную метку?


Хорошо написанный вопрос, и я прочитал несколько вещей, прочитав его. Я действительно задаюсь вопросом, обречен ли анализ случайных эффектов в долгосрочной перспективе, возможно, быть побежденным более прямыми методами сглаживания. Если я попытаюсь ответить на вопрос № 1, я пойду к ситуации с высокой изменчивостью, множеством субъектов и небольшими размерами выборки внутри субъекта. Тогда внутриотчетные фиксированные оценки будут повсюду.
Бен Огорек

Ответы:


20

1. Известный пример в психологии и лингвистике описан Хербом Кларком (1973; вслед за Колманом, 1964): «Ошибка языка как фиксированного эффекта: критика языковой статистики в психологическом исследовании».

Кларк - психолингвист, обсуждающий психологические эксперименты, в которых выборка предметов исследования дает ответы на ряд стимулирующих материалов, обычно различных слов, взятых из некоторого корпуса. Он указывает, что стандартная статистическая процедура, используемая в этих случаях, основанная на ANOVA с повторными измерениями и называемая Кларком как , рассматривает участников как случайный фактор, но (возможно, косвенно) рассматривает материалы стимулов (или «язык») как исправлено. Это приводит к проблемам в интерпретации результатов проверки гипотезы об экспериментальном факторе состояния: естественно, мы хотим предположить, что положительный результат говорит нам что-то как о совокупности, из которой мы взяли нашу выборку участника, так и о теоретической совокупности, из которой мы извлекли языковые материалы. Но FF1 , рассматривая участников как случайных, а стимулы как фиксированные, только говорит нам о влиянии фактора состояния на других похожих участников, реагирующих нате же самые стимулы. Проведениеанализа F 1, когда и участники, и стимулы более подходящим образом рассматриваются как случайные, может привести к частоте ошибок типа 1, которая значительно превышает номинальныйуровень α - обычно 0,05 - со степенью, зависящей от таких факторов, как количество и изменчивость стимулы и дизайн эксперимента. В этих случаях более подходящим анализом, по крайней мере в рамках классической структуры ANOVA, является использование так называемой квази F статистики, основанной на соотношенияхлинейных комбинацийF1F1αF средние квадраты.

Бумага Кларка произвела всплеск психолингвистики в то время, но не смогла сильно повлиять на более широкую психологическую литературу. (И даже в области психолингвистики совет Кларка с годами несколько искажался, что подтверждается документами Raaijmakers, Schrijnemakers & Gremmen, 1999.) Но в более поздние годы проблема пережила некоторое оживление, во многом благодаря статистическим достижениям. в моделях со смешанными эффектами, из которых классическая смешанная модель ANOVA может рассматриваться как частный случай. Некоторые из этих недавних работ включают Baayen, Davidson & Bates (2008), Murayama, Sakaki, Yan, & Smith (2014) и ( гм ) Judd, Westfall & Kenny (2012). Я уверен, что есть некоторые, которые я забыл.

2. Не совсем так. Там являются методы получения на ли фактор лучше включен как случайный эффект или нет в модели вообще (смотритенапример, Пиньейр & Bates, 2000, стр 83-87;. Однако см Барр, Левите, Шиперс, & Tily, 2013). И, конечно же, существуют классические методики сравнения моделей для определения, лучше ли включать фактор в качестве фиксированного эффекта или нет вообще (например, тесты). Но я думаю, что определение того, будет ли фактор лучше рассматривать как фиксированный или случайный, как правило, лучше оставить в качестве концептуального вопроса, на который необходимо ответить, рассмотрев план исследования и характер выводов, которые из него следует сделать.F

Один из моих выпускников по статистике, Гари МакКлелланд, любил говорить, что, возможно, фундаментальный вопрос статистического вывода: «По сравнению с чем?» Следуя Гэри, я думаю, что мы можем сформулировать концептуальный вопрос, который я упомянул выше: «С каким справочным классом гипотетических экспериментальных результатов я хочу сравнить мои фактические наблюдаемые результаты? Оставаясь в контексте психолингвистики и рассматривая экспериментальный план, в котором у нас есть выборка субъектов, отвечающих на выборку слов, которые классифицируются в одном из двух условий (конкретный дизайн подробно обсуждался Кларком, 1973 г.), я сосредоточусь на две возможности:

  1. Набор экспериментов, в котором для каждого эксперимента мы рисуем новую выборку предметов, новую выборку слов и новую выборку ошибок из генеративной модели. Согласно этой модели, Предметы и Слова являются случайными эффектами.
  2. Набор экспериментов, в котором для каждого эксперимента мы рисуем новую выборку предметов и новую выборку ошибок, но мы всегда используем один и тот же набор слов . Согласно этой модели, субъекты являются случайными эффектами, а слова - фиксированными эффектами.

Чтобы сделать это полностью конкретным, ниже приведены некоторые графики из (выше) 4 наборов гипотетических результатов из 4 смоделированных экспериментов в рамках Модели 1; (ниже) 4 набора гипотетических результатов из 4 смоделированных экспериментов в рамках Модели 2. Каждый эксперимент просматривает результаты двумя способами: (левые панели) сгруппированы по субъектам, причем для каждого субъекта нанесены графики и связаны друг с другом для каждого субъекта; (правые панели), сгруппированные по словам, с коробочными диаграммами, обобщающими распределение ответов для каждого Слова. Во всех экспериментах участвуют 10 субъектов, отвечающих на 10 слов, и во всех экспериментах «нулевая гипотеза» об отсутствии различий в условиях верна в соответствующей популяции.

Предметы и Слова как случайные: 4 смоделированных эксперимента

both_random

Обратите внимание, что в каждом эксперименте профили ответов для предметов и слов совершенно разные. Для Субъектов мы иногда получаем низкие общие респонденты, иногда с высокими респондентами, иногда Субъекты, которые имеют тенденцию показывать большие различия Условий, и иногда Субъекты, которые имеют тенденцию показывать маленькую разницу Условий. Аналогично, для Слов мы иногда получаем Слова, которые имеют тенденцию вызывать низкие ответы, а иногда - Слова, которые имеют тенденцию вызывать высокие ответы.

Предметы случайные, Слова исправлены: 4 смоделированных эксперимента

subs_random

Обратите внимание, что в четырех смоделированных экспериментах субъекты выглядят по-разному каждый раз, но профили ответов для слов выглядят в основном одинаково, что согласуется с предположением, что мы повторно используем один и тот же набор слов для каждого эксперимента в рамках этой модели.

Наш выбор того, думаем ли мы, что Модель 1 (Предметы и Слова - оба случайные) или Модель 2 (Предметы - случайные, Слова фиксированные) - обеспечивает соответствующий эталонный класс для экспериментальных результатов, которые мы действительно наблюдали, может иметь большое значение для нашей оценки того, является ли манипуляция Условием "работал." Мы ожидаем, что в модели 1 будет больше вероятностей, чем в модели 2, потому что в ней больше «движущихся частей». Таким образом, если выводы, которые мы хотим сделать, более соответствуют предположениям Модели 1, где изменчивость шансов относительно выше, но мы анализируем наши данные согласно предположениям Модели 2, где изменчивость шансов относительно ниже, тогда наша ошибка Типа 1 ставка для проверки разницы Условий будет завышена в некоторой (возможно, довольно большой) степени. Для получения дополнительной информации см. Ссылки ниже.

Ссылки

Baayen, RH, Davidson, DJ & Bates, DM (2008). Моделирование смешанных эффектов со скрещенными случайными эффектами для предметов и предметов. Журнал памяти и языка, 59 (4), 390-412. PDF

Barr, DJ, Levy, R., Scheepers, C. & Tily, HJ (2013). Структура случайных эффектов для проверки подтверждающей гипотезы: Сохраняйте ее максимальной. Журнал памяти и языка, 68 (3), 255-278. PDF

Кларк, HH (1973). Ошибка языка как фиксированного эффекта: критика языковой статистики в психологическом исследовании. Журнал вербального обучения и словесного поведения, 12 (4), 335-359. PDF

Coleman, EB (1964). Обобщая к языковой популяции. Психологические отчеты, 14 (1), 219-226.

Джадд, CM, Westfall, J. & Kenny, DA (2012). Рассмотрение стимулов как случайного фактора в социальной психологии: новое и всеобъемлющее решение широко распространенной, но в значительной степени игнорируемой проблемы. Журнал личности и социальной психологии, 103 (1), 54. PDF

Murayama, K., Sakaki, M., Yan, VX, & Smith, GM (2014). Тип I Ошибка инфляции в традиционном анализе соучастников до метамеморной точности: перспектива модели обобщенных смешанных эффектов. Журнал экспериментальной психологии: обучение, память и познание. PDF

Pinheiro, JC, & Bates, DM (2000). Модели со смешанными эффектами в S и S-PLUS. Springer.

Raaijmakers, JG, Schrijnemakers, J. & Gremmen, F. (1999). Как бороться с «ошибкой языка как фиксированного эффекта»: распространенные заблуждения и альтернативные решения. Журнал памяти и языка, 41 (3), 416-426. PDF


1
+1 Это отличный ответ, и ваша газета за 2012 год очень приятно читается.
говорит амеба, восстанови Монику

так как первоначальный вопрос уже связан с отличной дискуссией, которая входит в это - что именно вы имеете в виду?
Джеймс

1
Ссылка Гельмана
Джейк Уэстфолл,

@James Я пошел дальше и добавил еще несколько концептуальных вещей, в том числе несколько картинок. Дайте мне знать, что вы думаете.
Джейк Уэстфолл,

Спасибо за фотографии. Согласно вашему последнему абзацу, чем больше эффектов в модели помечены как случайные, тем выше значение p для оставшихся фиксированных эффектов. Однако для аддитивной модели это выглядит так, когда в PROC MIXED используется метод «сдерживания» по умолчанию, тогда значение p для фиксированного эффекта будет таким же. Один конкретный пример в этом вопросе: stats.stackexchange.com/q/112640/54099 Как вы можете это объяснить?
Джеймс

1

Предположим, у меня есть производственный процесс, который включает изготовление материала на нескольких разных машинах. Они единственные машины, которые у меня есть, поэтому «машина» - это постоянный эффект. Но я делаю много материалов для каждой машины и мне интересно предсказывать будущие партии. Я сделаю «Номер лота» случайным фактором, потому что меня интересуют результаты, которые я получу для будущих лотов.


1
Уважаемый Эмиль: Боюсь, вы не поняли вопросы, которые я задавал. Ваш пример иллюстрирует наиболее распространенное определение «фиксированный против случайного», которое я сам предоставил в своем вопросе. В любом случае, используя ваш пример, можете ли вы сказать мне, почему плохая идея делать выводы о будущем ответе модели, в которой номер партии является фиксированным фактором?
Джеймс

Если вы рассматриваете «номер лота» как фиксированный, ваши выводы будут применяться только к тем лотам, которые вы уже протестировали. В других ситуациях происходит то же самое. Если вы хотите сделать выводы о случайных эффектах, то рассматривая их как фиксированные эффекты, вы получите неправильные ответы. Во многих смешанных модельных ситуациях обработка случайных эффектов как фиксированных эффектов даже даст неправильные ответы относительно эффектов, которые на самом деле являются фиксированными.
Эмиль Фридман

Это не вопрос роста или падения. Если кто-то делает неправильный анализ, результаты обычно будут неверными.
Эмиль Фридман

Не могли бы вы дать справку для имитационного исследования, в котором показано, как результат становится неправильным в зависимости от фиксированной / случайной метки?
Джеймс

Также обратите внимание, что MLE не предоставляется бесплатно, особенно когда присутствуют компоненты дисперсии. Попробуйте создать скрещенный факторный дизайн с 3 факторами и парой непрерывных ковариат. Затем попробуйте оценить чисто фиксированную модель и несколько смешанных спецификаций. Пока существует случайный компонент, который вызывает переход от OLS к MLE / REML, проблемы с конвергенцией, получением компонентов с нулевой или отрицательной дисперсией или другими бессмысленными результатами более вероятны.
Джеймс

1

Таким образом, вы рассматриваете их как случайные, так что существует эффект усреднения между общим средним и средним для этого конкретного фактора, основанный на размере выборки фактора и общем количестве наблюдений. Это позволяет вам сказать, что ваши результаты применимы к населению в целом, так как у вас есть тип средневзвешенного значения и оценка отклонения от этого фактора, в противном случае вы действительно можете только сказать, что ваши результаты применимы к уровням фактора. Вы использовали, так как регрессия будет рассматривать их как дискретные факторы, а не случайные, которые получают взвешенное усреднение.

Они также полезны, когда вы повторили измерения по одному и тому же предмету, так как вы можете использовать их для учета корреляции между измерениями по одному и тому же предмету.


Что касается RM, это одна из причин, почему я задал вопрос в первую очередь. Как я уже упоминал здесь: stats.stackexchange.com/q/112640/54099, рассматривающий Субъекта как фиксированный или случайный, не меняет значение p Обработки, так что зачем беспокоиться.
Джеймс

Если у вас есть простой скрещенный дизайн с одним фиксированным коэффициентом и одним случайным и с использованием ожидаемых средних квадратов, значение p для фиксированного коэффициента будет отличаться от того, что вы получили бы, если бы вы рассматривали оба как фиксированные.
Эмиль Фридман

1

YяJзнак равноβ1ИксяJ+β2Zя+ея+μяJИксяJZяβ2ZяяZя

YяJзнак равноβ1ИксяJ+ея+μяJZя

β1β1


(Оригинальный ответ)

Одно из мест, где вам необходимо использовать случайные эффекты, - это когда вы хотите включить параметры, инвариантные на уровне группировки фиксированного эффекта.

Например, скажем, вы хотите исследовать влияние характеристик врача (например, / образование) на результаты пациента. Набор данных находится на уровне пациента с наблюдаемыми исходами пациента и характеристиками пациента / врача. Поскольку пациенты, проходящие лечение у одного врача, вероятно, коррелируют, вы хотите контролировать это. Вы можете вставить здесь фиксированный эффект доктора, но при этом вы исключаете включение каких-либо характеристик доктора в модель. Что проблематично, если интерес к характеристикам уровня доктора.


Не могли бы вы привести некоторые модельные высказывания?
Джеймс

0

Я думаю, что это связано с согласованностью оценок.

ИксяJзнак равноaя+бJ+еaя

бJ

Нейман и Скотт (1948) указывают на проблему согласованности

aя а также бJ,

Если мы возьмем aя а также бJ как фиксированный эффект, оценки больше не

последовательны. По крайней мере, я так понял ...

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.