Дисперсионное распределение и продольные изменения в корреляции с двоичными данными


14

Я анализирую данные о 300 000 учеников в 175 школах с помощью логистической линейной модели смешанных эффектов (случайные перехваты). Каждый ученик встречается ровно один раз, а данные охватывают 6 лет.

  1. Как разделить разницу между уровнями школы и ученика, аналогично VPC / ICC для непрерывных результатов? Я видел эту статью, в которой предлагаются 4 метода, из которых A и B кажутся мне интересными, но я хотел бы знать, какие преимущества / недостатки могут быть в использовании любого из них, и, конечно, если есть какие-либо другие способы сделать Это.

  2. Как я могу сравнить остаточную дисперсию на уровне школы из года в год (или любой другой период времени)? До сих пор я делал это путем деления данных по годам и запуска модели для каждого года данных, но я думаю, что это некорректно, потому что: i) нет очевидной причины, по которой мне следует делить по годам ; и ii) поскольку оценки фиксированных эффектов различны для каждого года, сравнение случайных эффектов из года в год может не иметь смысла (это просто моя интуиция, было бы здорово, если бы кто-то мог объяснить это более формально, если это правильно).

ПРИМЕЧАНИЕ: я переписал этот вопрос после обсуждения в мета с Whuber и Macro


3
Я думаю, что это серьезное улучшение. Вопрос сейчас очень понятен. Прямо сейчас у меня нет времени, чтобы дать хорошо организованный ответ, но я опубликую ответ позже.
Макро

3
Модели логистических смешанных эффектов кажутся чрезвычайно продвинутой темой для старшей школы. Они являются частью вашей школьной программы или вы учитесь самостоятельно?
mark999

4
@ mark999 Я учусь самостоятельно. На самом деле я пытаюсь доказать, что мой брат ошибался, который сказал, что «нет способа понять это» . У него степень по статистике, поэтому у меня есть доступ ко всем его книгам и т. Д. (Когда ему хорошо).
Джо Кинг,

Ответы:


15

Пусть обозначает ответ и вектор предиктора (соответственно) учащегося i в школе j .YяJ,ИксяJяJ

(1) Для двоичных данных, я думаю, что стандартный способ сделать разложение дисперсии, аналогичное тому, что делается для непрерывных данных, - это то, что авторы называют метод D (я прокомментирую другие методы ниже) в вашей ссылке - представляя двоичные данные как возникающих из базовой непрерывной переменной, которая управляется линейной моделью и разлагает дисперсию по этой скрытой шкале. Причина в том, что логистические модели (и другие GLM) естественным образом возникают таким образом:

Чтобы увидеть это, определите , чтобы оно регулировалось линейной смешанной моделью:YяJ

YяJзнак равноα+ИксяJβ+ηJ+εяJ

где - коэффициенты регрессии,α,β - случайный эффект школьного уровня, а ε i j - остаточный член дисперсии и имеет стандартноелогистическое распределение. Теперь давайηJ~N(0,σ2)εяJ

YяJзнак равно{1если   YяJ00если   YяJ<0

пусть теперь y i j = 1 | x i j , η j ) , просто используя логистический CDF, который мы имеемпяJзнак равноп(YяJзнак равно1|ИксяJ,ηJ)

pij=1P(yij<0|xij,ηj)=exp{(α+xijβ+ηj)}1+exp{(α+xijβ+ηj)}

Теперь, принимая логит-преобразование с обеих сторон, у вас есть

log(pij1pij)=α+xijβ+ηj

которая является именно моделью логистических смешанных эффектов. Таким образом, логистическая модель эквивалентна модели скрытой переменной, указанной выше. Одно важное замечание:

  • Шкала не определена, так как, если бы вы уменьшили ее, но константу s , она просто изменила бы вышеприведенное значение наεijs

exp{(α+xijβ+ηj)/s}1+exp{(α+xijβ+ηj)/s}

       следовательно, коэффициенты и случайные эффекты будут просто увеличены на соответствующую величину. Итак, s = 1 используется, что подразумевает v
      s=1 .var(εij)=π2/3

Теперь, если вы используете эту модель, а затем количество

σ^η2σ^η2+π2/3

оценивает внутриклассовую корреляцию скрытых скрытых переменных . Еще одно важное замечание:

  • Если вместо указано стандартное нормальное распределение, то у вас есть пробитная модель со смешанными эффектами . В таком случаеεijоцениваеттетрахорическая корреляциямежду двумя случайно выбранными учениками в той же школе, что были показаны Пирсоном (около 1900 я думаю)чтобы быть статистически определенакогда основные непрерывные данные были нормально распределены (эта работа действительно показала эти корреляции были определены за пределами двоичного случая для случая нескольких категорий, где эти корреляции называютсяполихорическими корреляциями). По этой причине может быть предпочтительным (и я рекомендую это) использовать пробитную модель, когда основной интерес представляет оценка (тетрахорической) внутриклассовой корреляции двоичных данных.
    σ^η2σ^η2+1

Что касается других методов, упомянутых в статье, которую вы связали:

  • xij

  • (B) Метод моделирования интуитивно привлекателен для статистики, так как он даст вам оценку разложения дисперсии в исходном масштабе данных, но, в зависимости от аудитории, это может (i) быть сложно описать в ваших «методах» раздел и (ii) может отключить рецензента, который искал что-то «более стандартное»

  • (C) Притворяться, что данные непрерывны, вероятно, не очень хорошая идея, хотя они не будут работать ужасно, если большинство вероятностей не слишком близко к 0 или 1. Но выполнение этого почти наверняка вызовет красный флаг у рецензента. так что я бы держался подальше.

Теперь, наконец,

(2) Если фиксированные эффекты сильно различаются по годам, то вы правы, полагая, что может быть трудно сравнивать случайные отклонения эффектов по годам, поскольку они потенциально имеют разные масштабы (это связано с неидентифицируемостью). упомянутой выше проблемы масштабирования).

Ik=1k

α+xijβ+η1jI1+η2jI2+η3jI3+η4jI4+η5jI5+η6jI6

это даст вам разные ICC каждый год, но одинаковые фиксированные эффекты. Может быть заманчиво просто использовать случайный наклон во времени, делая ваш линейный предиктор

α+xijβ+η1+η2t

but I don't recommend this, since that will only allow your associations to increase over time, not decrease.


Please would you give me your comment to address the point in the linked article about this variance partitioning technique that says "This approach may be reasonable where the (0, 1) response is, say, derived from a truncation of an underlying continuum such as a pass/fail response based upon a continuous mark scale, but would seem to have less justification when the response is truly discrete, such as mortality or voting". In my case I am dealing with the incidence of bullying, which falls into the latter category, I think...
Joe King

@JoeKing, I would say that logistic/probit (and similar) regression models already assume that the data are generated from an underlying continuum, since the model can be shown to be equivalent to that. Therefore, if one is even using such models, then they must find that assumption to be defensible :)
Macro

1
@JoeKing, if you consider this answer definitive please consider accepting :)
Macro

Я действительно буду. В настоящий момент я немного не уверен в нескольких моментах, и я хотел бы вернуться к вам после того, как у меня было немного времени (пару дней), чтобы немного почитать и посмотреть на данные еще немного, если не возражаешь?
Джо Кинг

@JoeKing Конечно, некоторые новые участники не знают, так что я подумал, что укажу на это - это вовсе не должно было оказывать на вас давление
Macro
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.