Многоуровневая модель против отдельных моделей для каждого уровня

10

Каковы преимущества и недостатки использования отдельных моделей по сравнению с многоуровневым моделированием?

В частности, предположим, что в ходе исследования были изучены пациенты, размещенные в рамках практики врачей, расположенных в разных странах. Каковы преимущества / недостатки использования отдельных моделей для каждой страны по сравнению с трехуровневой вложенной моделью?

multilevel-analysis stratification

— Питер Флом
источник

2

Технически вам понадобится совсем немного единиц 3-го уровня, если вы собираетесь получать несмещенные оценки параметров в 3-уровневой модели (вообще говоря, размер выборки в любой многоуровневой модели особенно важен на самом высоком уровне), поэтому, если у вас нет большая случайная выборка стран (возможно, более 50), вам, вероятно, следует рассмотреть возможность использования отдельных двухуровневых моделей, или, если у вас мало стран, вы можете рассмотреть возможность рассмотрения страны как категориального предиктора уровня 2 в двухуровневой модели

— Патрик Кулон

Привет @ Gung Я был далеко, я буду смотреть на них сейчас.

— Питер Флом

6

Вопрос устарел, но я думаю, что это очень важно. Лучший ответ, который я могу получить, из книги Joop J Hox (2010) "Методы многоуровневого анализа и приложения, второе издание".

Предположим, что двухуровневые иерархические данные имеют объясняющих переменных на самом низком уровне и объясняющих переменных на самом высоком уровне. Затем на странице 55 он пишет: $p$ $q$

Обычная одноуровневая модель регрессии для тех же данных будет оценивать только пересечение, одну дисперсию ошибки и p + q наклоны регрессии. Преимущество модели многоуровневой регрессии очевидно, если учесть, что данные сгруппированы в группы. Если у нас есть 100 групп, оценка обычной модели множественной регрессии в каждой группе в отдельности требует оценки 100 × (1 перехват регрессии + 1 остаточная дисперсия + p наклонов регрессии) плюс возможные взаимодействия с переменными уровня q группы. Многоуровневая регрессия заменяет оценку 100 перехватов оценкой среднего перехвата плюс его остаточную дисперсию по группам, предполагая нормальное распределение этих остатков. Таким образом, многоуровневый регрессионный анализ заменяет оценку 100 отдельных перехватов оценкой двух параметров (среднего значения и дисперсии перехватов) плюс допущение о нормальности. Такое же упрощение используется для наклонов регрессии. Вместо оценки 100 уклонов для объясняющего переменного пола ученика, мы оцениваем средний уклон вместе с его дисперсией по группам и предполагаем, что распределение уклонов является нормальным. Тем не менее, даже при небольшом числе объясняющих переменных многоуровневый регрессионный анализ подразумевает сложную модель. Как правило, мы не хотим оценивать полную модель, во-первых, потому что это может привести нас к вычислительным проблемам, а также потому, что очень сложно интерпретировать такую сложную модель.

Это для описания. Теперь страницы 29-30 ответят на ваш вопрос более точно.

Предсказанные перехваты и наклоны для 100 классов не идентичны значениям, которые мы получили бы, если бы мы провели 100 отдельных регулярных регрессионных анализов в каждом из 100 классов, используя стандартные методы наименьших квадратов (OLS). Если бы мы сравнили результаты 100 отдельных регрессионных анализов МНК со значениями, полученными из многоуровневого регрессионного анализа, мы обнаружили бы, что результаты отдельных анализов более вариабельны. Это связано с тем, что многоуровневые оценки коэффициентов регрессии 100 классов являются взвешенными. Это так называемые эмпирические байесовские (EB) или оценки усадки: средневзвешенное значение конкретной оценки OLS в каждом классе и общий коэффициент регрессии, оцененный для всех аналогичных классов.

В результате коэффициенты регрессии сжимаются назад к среднему коэффициенту для всего набора данных. Вес усадки зависит от достоверности расчетного коэффициента. Коэффициенты, которые оцениваются с небольшой точностью, уменьшаются больше, чем очень точно оцененные коэффициенты. Точность оценки зависит от двух факторов: размера выборки группы и расстояния между оценкой на основе группы и общей оценкой. Оценки для небольших групп менее надежны и сокращаются больше, чем оценки для больших групп. При прочих равных условиях оценки, которые очень далеки от общей оценки, считаются менее надежными, и они сокращаются больше, чем оценки, близкие к общему среднему значению. Используемый статистический метод называется эмпирической байесовской оценкой. Из-за этого эффекта усадки, эмпирические байесовские оценки смещены. Тем не менее, они, как правило, более точные, свойство, которое часто более полезно, чем быть беспристрастным (см. Кендалл, 1959).

Я надеюсь, что это удовлетворительно.

— Мэн Ху
источник

2

Задание случайного эффекта предполагает, что средние значения этих уровней являются выборками из нормального распределения. Лучше указать их как фиксированные эффекты, фиктивные переменные АКА, если это предположение не соответствует вашим данным. Таким образом, вы контролируете групповую неоднородность в среднем (на этом уровне), но НЕ допускаете неоднородности в ответах на ваши переменные нижнего уровня.

Если вы ожидаете неоднородности в ответ на пояснительные переменные более низкого уровня, отдельные модели имеют смысл, если только вы не хотите запускать какую-либо модель случайных коэффициентов (что опять-таки предполагает предположение о том, что коэффициенты обычно распределены).

(Я полагаю, что есть методы для ненормальных случайных эффектов, но нет ничего более широко используемого или доступного, чем у меня)

— generic_user
источник

1

Преимущество: возможность явного тестирования на различия в параметрах по кластерам (т.е. различия в значимости не означают существенных различий).

— DL Dahly
источник

2

Этот ответ слишком короткий. Больше комментарий, чем ответ.

— Эрик Петерсон