При каких условиях следует использовать многоуровневый / иерархический анализ?


36

При каких условиях следует рассмотреть возможность использования многоуровневого / иерархического анализа в отличие от более базового / традиционного анализа (например, ANOVA, регрессия OLS и т. Д.)? Есть ли ситуации, в которых это можно считать обязательным? Существуют ли ситуации, в которых использование многоуровневого / иерархического анализа нецелесообразно? И, наконец, какие есть хорошие ресурсы для начинающих изучать многоуровневый / иерархический анализ?


3
Смотрите также: stats.stackexchange.com/a/38430/5739
StasK

Ответы:


22

Когда структура ваших данных естественно иерархическая или вложенная, многоуровневое моделирование является хорошим кандидатом. В целом, это один из методов моделирования взаимодействия.

Естественный пример - когда ваши данные взяты из организованной структуры, такой как страна, штат, район, где вы хотите изучить эффекты на этих уровнях. Другим примером, где вы можете подобрать такую ​​структуру, является продольный анализ, когда вы повторяете измерения для многих субъектов с течением времени (например, некоторый биологический ответ на дозу лекарства). Один уровень вашей модели предполагает средний групповой ответ для всех субъектов с течением времени. Затем другой уровень вашей модели учитывает возмущения (случайные эффекты) от среднего значения группы для моделирования индивидуальных различий.

Популярная и хорошая книга для начала - « Анализ данных Гельмана с использованием регрессионных и многоуровневых / иерархических моделей» .


3
Я поддерживаю этот ответ и хочу добавить еще одну замечательную ссылку на эту тему: текст Прикладного продольного анализа данных Сингера < gseacademic.harvard.edu/alda >. Хотя он специфичен для продольного анализа, он дает хороший обзор MLM в целом. Я также нашел многоуровневый анализ Snidjers и Bosker хорошим и читабельным < stat.gamma.rug.nl/multilevel.htm >. Джон Фокс также дает хорошее представление об этих моделях в R здесь < cran.r-project.org/doc/contrib/Fox-Companion/… >.
Бретт

Спасибо всем за ваши ответы :) В качестве дополнительного вопроса, не может ли большая часть данных быть концептуализирована как естественно иерархическая / вложенная? Например, в большинстве психологических исследований существует ряд зависимых переменных (вопросники, ответы на стимулы и т. Д.), Вложенных в отдельных лиц, которые затем вкладываются в две или более группы (назначенные случайным или не случайным образом). Согласитесь ли вы, что это представляет собой естественно иерархическую и / или вложенную структуру данных?
Патрик

Если кто-то из вас, многоуровневых / иерархических гуру, мог бы уделить несколько минут, я был бы очень признателен, если бы вы взвесили вопросы анализа, поставленные в другом посте ( stats.stackexchange.com/questions/1799/… ). В частности, считаете ли вы, что данные восприятия боли, изложенные в этом посте, будут лучше проанализированы с помощью иерархического анализа, чем неиерархического анализа? Или это не будет иметь никакого значения или даже будет неуместным? Спасибо: D
Патрик

18

В Центре многоуровневого моделирования есть несколько бесплатных бесплатных онлайн-учебников по многоуровневому моделированию, а также учебные пособия по программному обеспечению для подгонки моделей как в программном обеспечении MLwiN, так и в STATA.

Воспринимайте это как ересь, потому что я прочитал не только главу в книге, но иерархические линейные модели: приложения и методы анализа данных. Стивен У. Рауденбуш, Энтони С. Брик, настоятельно рекомендуется. Я также поклялся, что в Springer Use R была книга о многоуровневом моделировании с использованием программного обеспечения R! серии, но я не могу найти это в данный момент (я думал, что это было написано теми же людьми, которые написали книгу «Руководство для начинающих по R»).

редактирование: книга об использовании R для многоуровневых моделей - « Модели смешанных эффектов и расширения в экологии с R» - автор Zuur, AF, Ieno, EN, Walker, N., Saveliev, AA, Smith, GM

удачи


9

Вот еще одна точка зрения на использование многоуровневых и регрессионных моделей: в интересной статье Afshartous и de Leeuw они показывают, что если целью моделирования является прогнозирование (то есть прогнозирование новых наблюдений), выбор модели отличается от того, когда цель - вывод (где вы пытаетесь сопоставить модель со структурой данных). Бумага, на которую я имею в виду,

Afshartous, D., де Леу, J. (2005). Прогнозирование в многоуровневых моделях. J. Educat. Behav. Statist. 30 (2): 109-139.

Я только что нашел другую связанную статью этих авторов здесь: http://moya.bus.miami.edu/~dafshartous/Afshartous_CIS.pdf


6

Yяsзнак равноαs+Иксяs'βs+εяs,
YяsяsИксяsβsαsεяsαs

С моделью в руке вопрос становится оценочным. Если у вас есть много школ и много данных для каждой школы, хорошие свойства OLS (см. Angrist и Pischke, Mostly Harmless ...(для текущего обзора) предположите, что вы хотели бы использовать это с соответствующими корректировками стандартных ошибок для учета зависимостей и использования фиктивных переменных и взаимодействий для получения эффектов школьного уровня и специфичных для школы перехватов. OLS может быть неэффективным, но он настолько прозрачен, что может быть легче убедить скептическую аудиторию, если вы используете это. Но если ваши данные в некоторой степени редки - особенно если у вас мало наблюдений за некоторыми школами - вы можете захотеть наложить больше «структуры» на проблему. Возможно, вы захотите «позаимствовать силу» у школ с более высокой выборкой, чтобы улучшить оценки шума, которые вы получили бы в школах с небольшой выборкой, если бы оценка проводилась без какой-либо структуры. Затем вы можете обратиться к модели случайных эффектов, оцененной с помощью FGLS,

В этом примере использование многоуровневой модели (как бы мы ни решили ее в конечном итоге) мотивируется прямым интересом к перехватам на уровне школы. Конечно, в других ситуациях эти параметры группового уровня могут быть не более чем неприятностью. Нужно ли вам корректировать их (и, следовательно, все еще работать с какой-то многоуровневой моделью), зависит от того, выполняются ли определенные предположения об условной экзогенности. По этому поводу я бы рекомендовал обратиться к эконометрической литературе по методам панельных данных; большинство выводов оттуда переносятся на общие сгруппированные контексты данных.


1
Это старый поток, но в случае, если вы читаете это: OLS с фиктивными переменными и взаимодействиями не требует силы, как другие упомянутые вами техники, верно? У меня есть некоторые данные, в которых я разбил свой анализ на две части и использовал две команды lm (R linear model) для моделирования двух частей. Я ввел фиктивную переменную для обозначения двух частей, затем снова использовал lm в этой «унифицированной» модели, и ответы близки, но не совпадают. Мой вопрос был бы: этот ответ "лучше", или просто другой из-за алгоритма?
Уэйн

@Wayne: если вы использовали макеты и полный набор взаимодействий во втором, точечные оценки должны быть одинаковыми. Стандартные ошибки могут отличаться, потому что второй метод может предполагать более высокие степени свободы, но вы хотели бы проверить, является ли это правильным предположением моделирования.
Сайрус С

6

Многоуровневое моделирование подходит, как следует из названия, когда ваши данные влияют на разные уровни (индивидуально, с течением времени, по доменам и т. Д.). Одноуровневое моделирование предполагает, что все происходит на самом низком уровне. Еще одна вещь, которую делает многоуровневая модель - это вводить корреляции между вложенными единицами. Таким образом, юниты уровня 1 внутри одного юнита уровня 2 будут коррелированы.

В некотором смысле вы можете думать о многоуровневом моделировании как о нахождении середины между «индивидуалистической ошибкой» и «экологической ошибкой». Индивидуалистическая ошибка - это когда игнорируются «общественные эффекты», такие как, например, совместимость стиля учителя со стилем обучения студента (предполагается, что эффект исходит от одного человека, так что просто делайте регрессию на уровне 1). в то время как «экологическая ошибка» противоположна, и все равно, что предположить, что лучший учитель имел учеников с лучшими оценками (и поэтому уровень 1 не нужен, просто полностью регрессируйте на уровне 2). В большинстве случаев ни один из них не подходит (ученик-учитель является «классическим» примером).

YяJJ


4

Как правило, иерархический байесовский (HB) анализ приведет к эффективным и стабильным оценкам на индивидуальном уровне, если только ваши данные не являются такими, что эффекты на индивидуальном уровне полностью однородны (нереалистичный сценарий). Оценки эффективности и стабильных параметров моделей HB становятся действительно важными, когда у вас есть разреженные данные (например, меньше нет проблем, чем нет параметров на индивидуальном уровне) и когда вы хотите оценить оценки на индивидуальном уровне.

Однако модели HB не всегда легко оценить. Поэтому, хотя анализ HB обычно превосходит анализ, не связанный с HB, вы должны взвесить относительные затраты в сравнении с выгодами на основе вашего прошлого опыта и ваших текущих приоритетов с точки зрения времени и затрат.

Сказав, что, если вас не интересуют оценки отдельных уровней, вы можете просто оценить модель агрегированного уровня, но даже в этих контекстах оценка моделей агрегирования через HB с использованием оценок отдельных уровней может иметь большой смысл.

Таким образом, подходящие модели HB - рекомендуемый подход, если у вас есть время и терпение, чтобы соответствовать им. Затем вы можете использовать агрегатные модели в качестве эталона для оценки производительности вашей модели HB.


Спасибо за ваш подробный ответ Srikant :) В настоящее время я не знаком с байесовским анализом, но я являюсь одной из тем, которую я хотел исследовать. Отличается ли иерархический байесовский анализ от других многоуровневых / иерархических анализов, обсуждаемых на этой странице? Если да, есть ли у вас рекомендуемый ресурс для заинтересованных сторон, чтобы узнать больше?
Патрик

βя~N(β¯,Σ)β¯~N(,,,)

4

Я научился у Снидерса и Боскера многоуровневому анализу: введение в базовое и расширенное многоуровневое моделирование. Я думаю, что это очень хорошо для начинающего, потому что я - фанат, когда дело касается этих вещей, и это имело смысл для меня.

Я второй Гельман и Хилл, по-настоящему блестящая книга.


1

Многоуровневые модели следует использовать, когда данные вложены в иерархическую структуру, особенно когда существуют существенные различия между единицами более высокого уровня в зависимой переменной (например, ориентация на достижения учащихся различается между студентами, а также между классами, с которыми студенты вложены). В этих обстоятельствах наблюдения сгруппированы, а не независимы. Неспособность принять во внимание кластеризацию приводит к недооценке ошибок в оценках параметров, смещенной проверке значимости и тенденции отклонять нулевое значение, когда оно должно быть сохранено. Обоснование использования многоуровневых моделей, а также подробное объяснение того, как проводить анализ, предоставлено

Рауденбуш, С.В. Брик, А.С. (2002). Иерархические линейные модели: приложения и методы анализа данных. 2-е издание. Ньюбери Парк, Калифорния: Мудрец.

Книга R & B также хорошо интегрирована с программным пакетом HLM авторов, который очень помогает в изучении пакета. Объяснение того, почему многоуровневые модели необходимы и предпочтительнее некоторых альтернатив (например, фиктивное кодирование единиц более высокого уровня), представлено в классической статье.

Хоффман Д.А. (1997). Обзор логики и обоснования иерархических линейных моделей. Журнал управления, 23, 723-744.

Бумагу Хоффмана можно скачать бесплатно, если вы Google "Hoffman 1997 HLM" и доступ к PDF в Интернете.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.