Боюсь, у меня может быть нюансированный и, возможно, неудовлетворительный ответ, что это субъективный выбор исследователя или аналитика данных. Как уже упоминалось в этом разделе, недостаточно просто сказать, что данные имеют «вложенную структуру». Чтобы быть справедливым, однако, это то, как много книг описывают, когда использовать многоуровневые модели. Например, я только что вытащил книгу Джупа Хокса « Многоуровневый анализ» со своей книжной полки, которая дает такое определение:
Многоуровневая проблема касается населения с иерархической структурой.
Даже в довольно хорошем учебнике первоначальное определение кажется круговым. Я думаю, что это частично связано с субъективностью определения того, когда использовать какую модель (включая многоуровневую модель).
Другая книга, Линейные смешанные модели West, Welch & Galecki, говорит, что эти модели предназначены для:
переменные результата, в которых остатки обычно распределены, но могут не быть независимыми или иметь постоянную дисперсию. Проекты исследований, приводящие к наборам данных, которые могут быть надлежащим образом проанализированы с использованием LMM, включают (1) исследования с кластеризованными данными, такими как ученики в классных комнатах, или экспериментальные проекты со случайными блоками, такими как партии сырья для промышленного процесса, и (2) продольные или повторные исследования, в которых предметы измеряются многократно с течением времени или в разных условиях.
Финч, Болин и Келли многоуровневое моделирование в R также говорят о нарушении предположения iid и коррелированных остатков:
Особое значение в контексте многоуровневого моделирования имеет предположение [в стандартной регрессии] о независимо распределенных членах ошибки для отдельных наблюдений в выборке. Это предположение, по сути, означает, что нет никаких отношений между людьми в выборке для зависимой переменной после учета независимых переменных в анализе.
Я считаю, что многоуровневая модель имеет смысл, когда есть основания полагать, что наблюдения не обязательно независимы друг от друга. Какой бы «кластер» ни объяснял эту независимость, можно смоделировать.
Очевидным примером могут быть дети в классах - все они взаимодействуют друг с другом, что может привести к тому, что результаты их тестов будут независимыми. Что если в одном классе есть кто-то, кто задает вопрос, который приводит к тому, что материал в этом классе охватывается, а другие классы не рассматриваются? Что, если учитель в одних классах более активен, чем в других? В этом случае будет некоторая не независимость данных; в многоуровневых словах мы могли бы ожидать, что некоторая дисперсия в зависимой переменной обусловлена кластером (то есть классом).
Я думаю, что ваш пример «собака против слона» зависит от независимых и зависимых переменных, представляющих интерес. Например, скажем, мы спрашиваем, есть ли влияние кофеина на уровень активности. Животные со всего зоопарка случайным образом получают либо кофеиновый напиток, либо контрольный напиток.
Если мы являемся исследователем, который интересуется кофеином, мы можем указать многоуровневую модель, потому что мы действительно заботимся о влиянии кофеина. Эта модель будет указана как:
activity ~ condition + (1+condition|species)
Это особенно полезно, если существует большое количество видов, над которыми мы проверяем эту гипотезу. Тем не менее, исследователь может быть заинтересован в видоспецифических эффектах кофеина. В этом случае они могли бы указать виды в качестве фиксированного эффекта:
activity ~ condition + species + condition*species
Это, очевидно, является проблемой, если существует, скажем, 30 видов, создающих громоздкий дизайн 2 х 30. Тем не менее, вы можете проявить творческий подход к моделированию этих отношений.
Например, некоторые исследователи выступают за еще более широкое использование многоуровневого моделирования. Гельман, Хилл и Ядзима (2012) утверждают, что многоуровневое моделирование можно использовать как поправку для множественных сравнений, даже в экспериментальных исследованиях, где структура данных не является явно иерархической по своей природе:
Более сложные проблемы возникают при моделировании нескольких сравнений, которые имеют большую структуру. Например, предположим, у нас есть пять показателей результата, три варианта лечения и подгруппы, классифицированные по двум полам и четырем расовым группам. Мы не хотели бы моделировать эту структуру 2 × 3 × 4 × 5 как 120 взаимозаменяемых групп. Даже в этих более сложных ситуациях мы считаем, что многоуровневое моделирование должно и должно в конечном итоге заменить классические процедуры множественных сравнений.
Проблемы могут быть смоделированы различными способами, и в неоднозначных случаях несколько подходов могут показаться привлекательными. Я считаю, что наша задача - выбрать разумный, обоснованный подход и сделать это прозрачно.