Появление обобщенных линейных моделей позволило нам построить модели данных регрессионного типа, когда распределение переменной отклика ненормально - например, когда ваш DV двоичный. (Если вы хотели бы знать немного больше о ГЛИМСЕ, я написал довольно обширный ответ здесь , что может быть полезным , хотя контекстным различено.) Тем не менее, Глит, например, модель логистической регрессии, предполагает , что ваши данные являются независимыми . Например, представьте исследование, в котором рассматривается вопрос, развился ли у ребенка астма. Каждый ребенок вносит одинданные указывают на исследование - у них либо астма, либо нет. Иногда данные не являются независимыми, хотя. Рассмотрим другое исследование, в котором рассматривается, простужается ли ребенок в разные моменты учебного года. В этом случае каждый ребенок вносит много данных. Когда-то у ребенка может быть простуда, позже - нет, а еще позже - простуда. Эти данные не являются независимыми, потому что они получены от одного и того же ребенка. Чтобы должным образом проанализировать эти данные, нам нужно как-то принять во внимание эту независимость. Есть два способа: один из них - использовать обобщенные оценочные уравнения (о которых вы не упоминаете, поэтому мы пропустим). Другой способ - использовать обобщенную линейную смешанную модель., GLiMM могут учитывать не-независимость, добавляя случайные эффекты (как отмечает @MichaelChernick). Таким образом, ответ заключается в том, что ваш второй вариант предназначен для ненормальных данных с повторными измерениями (или, в противном случае, независимо). (Я должен упомянуть, в соответствии с комментариями @ макросов, что общ- роскопию линейные смешанные модели включают в себя линейные модели , как частный случай , и , таким образом , может использоваться с нормально распределенными данными. Однако, в типичном использовании термин ассоциируется Негауссовские данные.)
Обновление: (ФП также спросил о GEE, поэтому я напишу немного о том, как все три связаны друг с другом.)
Вот основной обзор:
- типичный GLiM (в качестве прототипа я буду использовать логистическую регрессию) позволяет моделировать независимый двоичный ответ как функцию от ковариат
- GLMM позволяет моделировать независимый (или кластеризованный) двоичный ответ, зависящий от атрибутов каждого отдельного кластера, как функцию от ковариат
- ГЭЭ позволяет моделировать математическое ожидание ответа от не-независимых двоичных данных в зависимости от ковариата
Поскольку у вас есть несколько испытаний на участника, ваши данные не являются независимыми; как вы правильно заметили, «[t] риалы внутри одного участника, вероятно, будут более похожими, чем по сравнению со всей группой». Поэтому вы должны использовать либо GLMM, либо GEE.
Вопрос в том, как выбрать, подходит ли GLMM или GEE для вашей ситуации. Ответ на этот вопрос зависит от предмета вашего исследования - в частности, от цели, на которую вы надеетесь сделать выводы. Как я уже говорил выше, с GLMM бета-версии говорят вам о влиянии изменения одной единицы в ваших ковариатах на конкретного участника, учитывая его индивидуальные характеристики. С другой стороны, в GEE бета-версии говорят вам о влиянии изменения одной единицы в ваших ковариатах в среднем на ответы всей популяции, о которых идет речь. Это сложное для понимания различие, особенно из-за того, что такого различия нет в линейных моделях (в этом случае это одно и то же).
Один из способов попытаться обдумать это - представить себе усреднение по вашему населению по обе стороны от знака равенства в вашей модели. Например, это может быть модель:
logit(pi)=β0+β1X1+bi
где:
Существует параметр, который управляет распределением ответа (
p, вероятность, с двоичными данными) на левой стороне для каждого участника. С правой стороны, есть коэффициенты для эффекта ковариации [s] и базового уровня, когда ковариата [s] равна 0. Первое, что нужно отметить, это то, что фактический перехват для любого конкретного человека
неявляется
βbi's (случайный эффект) обычно распределяются со средним значением 0 (как мы сделали), конечно, мы можем усреднить по ним без затруднений (это было бы просто
logit(p)=ln(p1−p), & b∼N(0,σ2b)
p , а точнее
( β 0 + b i ) . Ну и что? Если мы предполагаем, что
β0(β0+bi)bi ). Кроме того, в этом случае мы не имеем соответствующий случайный эффект для склонов иследовательноих среднее значение только
β 1 . Таким образом, среднее значение пересечений плюс среднее значение уклонов должно быть равно логитному преобразованию среднего значения
p i слева, не так ли? К сожалению,
нет. Проблема в том, что между этими двумя находится
логит , который является
нелинейнымβ0β1pilogitпреобразование. (Если бы преобразование было линейным, оно было бы эквивалентным, поэтому эта проблема не возникает для линейных моделей.) Следующий график проясняет это:
представьте, что этот график представляет базовый процесс создания данных для вероятности того, что небольшой класс Студенты смогут пройти тест по какому-либо предмету с заданным количеством часов обучения по этой теме. Каждая из серых кривых представляет вероятность прохождения теста с различным количеством инструкций для одного из студентов. Жирная кривая - это среднее значение по всему классу. В этом случае эффект дополнительного часа обучения
условно атрибуты студента является
β1- то же самое для каждого студента (то есть нет случайного наклона). Тем не менее, обратите внимание, что базовые способности учащихся различаются среди них - вероятно, из-за различий в таких вещах, как IQ (то есть, случайный перехват). Средняя вероятность для класса в целом, однако, следует за другим профилем, чем у студентов. Поразительно противоречивый результат заключается в следующем:
дополнительный час обучения может оказать существенное влияние на вероятность прохождения теста каждым учеником, но сравнительно мало повлиять на вероятную общую долю сдавших учащихся . Это связано с тем, что у некоторых студентов уже был большой шанс сдать, а у других все еще мало шансов.
Вопрос о том, следует ли вам использовать GLMM или GEE, заключается в том, какую из этих функций вы хотите оценить. Если вы хотите узнать о вероятности прохождения данного студента (например, если вы были студентом или его родителем), вы хотите использовать GLMM. С другой стороны, если вы хотите знать о влиянии на население (если, например, вы были учителем или директором), вам следует использовать GEE.
Для другого, более математически подробного, обсуждения этого материала, см. Этот ответ @Macro.