Вы в основном правы относительно организации данных. Если у вас есть дела, организованные так:
ID M1 M2 M3 EVENT
Вы, вероятно, захотите реорганизовать данные так, чтобы они выглядели так:
ID TIME EVENT
1 1 0
1 2 1
1 3 1
2 1 0
2 2 0
. . .
. . .
Я называю это преобразованием из широкого формата в длинный. Это легко сделать в R с помощью reshape()
функции или еще проще с помощью reshape2
пакета.
Лично я бы оставил ID
поле для его потенциального использования при определении источника вариаций в модели смешанных эффектов. Но это не обязательно (как указано @BerndWeiss). Ниже предполагается, что вы хотели бы сделать это. Если нет, используйте аналогичную модель glm(...,family=binomial)
без терминов случайного эффекта.
lme4
Пакет в R будет соответствовать смешанным эффектам логистической регрессионной модели , аналогичной той , что вы говорите, за исключением случайного эффекта или два для учета изменчивости коэффициентов по предметам ( ID
). Ниже приведен пример кода для подбора примерной модели, если ваши данные хранятся во фрейме данных с именем df
.
require(lme4)
ans <- glmer(EVENT ~ TIME + (1+TIME|ID), data=df, family=binomial)
Эта конкретная модель позволяет коэффициентам TIME
и intercept
коэффициентам изменяться случайным образом по идентификатору. Другими словами, это иерархическая линейная смешанная модель измерений, вложенная в отдельных лиц.
Альтернативная форма модели истории событий с дискретным временем разбивается TIME
на отдельные макеты и подходит для каждого в качестве параметра. По сути, это дискретный случай модели Кокса PH, поскольку кривая опасности не ограничивается линейной (или квадратичной, или, тем не менее, вы можете представить себе время преобразования). Хотя, возможно, вы захотите сгруппировать TIME
в управляемый набор (то есть небольшой) дискретных периодов времени, если их много.
Дальнейшие альтернативы включают преобразование времени, чтобы получить правильную кривую опасности. Предыдущий метод в основном освобождает вас от необходимости делать это, но предыдущий метод менее экономен, чем этот (и исходный линейный случай, который я изложил), потому что у вас может быть много временных точек и, следовательно, много неприятных параметров.
Отличным справочником по этой теме является Прикладной продольный анализ данных Джудит Сингер и Джона Уиллета : изменение моделирования и возникновение событий .
self-study
тег.)