Как объединить доверительные интервалы для дисперсионного компонента модели смешанных эффектов при использовании множественного вменения


20

Логика множественного вменения (МИ) состоит в том, чтобы вменять пропущенные значения не один раз, а несколько (обычно М = 5) раз, что приводит к М завершенным наборам данных. Затем M завершенных наборов данных анализируются с использованием методов полных данных, на которых M оценок и их стандартные ошибки объединяются с использованием формул Рубина для получения «общей» оценки и ее стандартной ошибки.

Пока здорово, но я не уверен, как применять этот рецепт, когда речь идет о компонентах дисперсии модели смешанных эффектов. Распределение выборки дисперсионного компонента является асимметричным - поэтому соответствующий доверительный интервал нельзя дать в типичной форме «оценка ± 1,96 * se (оценка)». По этой причине пакеты R lme4 и nlme даже не предоставляют стандартных ошибок компонентов отклонения, а только обеспечивают доверительные интервалы.

Поэтому мы можем выполнить MI для набора данных, а затем получить M доверительных интервалов для каждого компонента дисперсии после подгонки той же модели смешанного эффекта к M завершенным наборам данных. Вопрос в том, как объединить эти М интервалы в один «общий» доверительный интервал.

Я думаю, это должно быть возможно - авторы статьи (yucel & demirtas (2010) Влияние ненормальных случайных эффектов на умозаключение по MI), похоже, сделали это, но они не объясняют, как именно.

Любые советы будут очень благодарны!

Ура, Рок


Очень интересный вопрос Я с нетерпением жду ваших результатов, если вы хотите поделиться ими ...
chl

@chl: я могу отправить вам таблицы с результатами, когда я закончу, но я не буду изобретать ничего нового на самом деле. Пока что я просто планирую сравнить MI в двухуровневой модели вменения (панорамирование пакета R) с MI в простой нормальной модели (игнорируя двухуровневую структуру, норма пакета R) и удаления по списку. При разных размерах выборки, значениях дисперсионного компонента и т. Д. Этого должно быть достаточно для семинара (я аспирант), но не совсем новаторский. Если у вас есть какие-либо идеи о том, как «оживить» изучение симуляции, я хотел бы услышать.
Рок

1
Еще одна вещь: я не уверен, что правильное аналитическое решение этой проблемы даже существует. Я посмотрел на некоторую дополнительную литературу, но эта проблема элегантно просматривается повсюду. Я также заметил, что yucel & demirtas (в упомянутой статье на стр. 798) пишут: «Эти многократные вмененные наборы данных были использованы для оценки модели […] с использованием пакета R lme4, что привело к 10 наборам (бета, se (бета)» ), (sigma_b, se (sigma_b)), которые затем были объединены с использованием правил объединения МИ, определенных Рубином. ”
Рок

Кажется, они использовали какой-то ярлык для оценки SE дисперсионного компонента (что, конечно, неуместно, поскольку CI является асимметричным), а затем применили классическую формулу.
Рок

Хорошо, спасибо за это. Можете ли вы поставить свои комментарии в ответ, чтобы за него проголосовали?
CHL

Ответы:


8

Это большой вопрос! Не уверен, что это полный ответ, однако я опускаю эти несколько строк на случай, если это поможет.

Похоже, что Yucel и Demirtas (2010) ссылаются на более раннюю статью, опубликованную в JCGS, « Вычислительные стратегии для многомерных линейных моделей со смешанными эффектами с отсутствующими значениями» , в которой используется гибридный подход к оценке EM / Fisher для получения основанных на вероятности оценок VC. , Он был реализован в пакете R mlmmm . Я не знаю, однако, если он производит КИ.

В противном случае я бы определенно проверил программу WinBUGS , которая в основном используется для многоуровневых моделей, в том числе с отсутствующими данными. Кажется, я помню, что это будет работать только в том случае, если ваш MV находится в переменной ответа, а не в ковариатах, потому что мы обычно должны указывать полные условные распределения (если MV присутствует в независимых переменных, это означает, что мы должны дать до недостающие X, и это будет рассматриваться как параметр, который будет оцениваться WinBUGS ...). Похоже, это относится и к R, если я обращаюсь к следующему потоку по r-sig-mixed, отсутствующим данным в lme, lmer, PROC MIXED . Также, возможно, стоит взглянуть на программное обеспечение MLwiN .


Большое спасибо за ваш ответ! В принципе меня также интересует, как решить конкретную проблему, подобную той, которую я описал (таким образом, спасибо за совет WinBUGS). Но в данный момент я пытаюсь провести имитационное исследование для документа для семинара, в котором я рассмотрю эффективность (уровень охвата и т. Д.) МИ в соответствии с неправильной спецификацией модели. Полагаю, я просто забуду о компонентах дисперсии, если не смогу найти решение и сосредоточиться на фиксированных эффектах, но расстраиваться сложно.
Рок

@Rok Отличная идея для симуляции! Я с нетерпением жду этого конкретного вопроса. Я полагаю, что вы уже искали рассылку r-sig-mixed и книгу Гельмана о многоуровневой регрессии ...
chl

Я смотрел сейчас, танки для ссылок! К сожалению, в архивах r-sig-mix нет ничего о MI; и Гельман дает только базовую формулу о том, как объединить выводы из ИМ, когда у нас есть изменения в пределах и между данными вменениями (§25.7).
Рок

6

Повторный комментарий сверху:

Я не уверен, что правильное аналитическое решение этой проблемы даже существует. Я посмотрел на некоторую дополнительную литературу, но эта проблема элегантно игнорируется везде. Я также заметил, что Yucel & Demirtas (в упомянутой статье на стр. 798) пишут:

Эти многократные вмененные наборы данных были использованы для оценки модели […] с использованием пакета R, lme4приводящего к 10 наборам (beta, se (beta)), (sigma_b, se (sigma_b)), которые затем были объединены с использованием правил объединения MI, определенных Вбивать в голову.

Кажется, они использовали какой-то ярлык для оценки SE дисперсионного компонента (что, конечно, неуместно, поскольку CI является асимметричным), а затем применили классическую формулу.


Я ценю, что вы вернулись, чтобы поделиться своим опытом с этой проблемой. К сожалению, у меня нет реального решения, но, возможно, появятся другие предложения.
хл

«Изящно упущен из виду» ... это полезная фраза для обзора литературы, если я когда-либо слышал.
Мэтт Паркер

3

Отказ от ответственности: эта идея может быть глупой, и я не собираюсь притворяться, что понимаю теоретические последствия того, что я предлагаю.

« Предложение » : Почему бы вам просто не вменять 100 (я знаю, вы обычно делаете 5) наборов данных, запустить lme4 или nmle, получить доверительные интервалы (у вас их 100), а затем:

Используя небольшую ширину интервала (скажем, диапазон / 1000 или что-то в этом роде), проверьте диапазон возможных значений каждого параметра и включите в него только те небольшие интервалы, которые появляются по крайней мере в 95 из 100 КИ. Тогда у вас будет «среднее» Монте-Карло ваших доверительных интервалов.

Я уверен, что есть проблемы (или, возможно, теоретические проблемы) с этим подходом. Например, вы можете получить набор непересекающихся интервалов. Это может или не может быть плохой вещью в зависимости от вашей области. Обратите внимание, что это возможно только в том случае, если у вас есть как минимум два полностью непересекающихся доверительных интервала, которые разделены областью с охватом менее 95%.

Вы могли бы также рассмотреть нечто более близкое к байесовскому подходу к отсутствующим данным, чтобы получить заднюю правдоподобную область, которая , безусловно, была бы лучше сформирована и более теоретически обоснована, чем мое специальное предложение.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.