Короткий ответ , что ваше предположение верно тогда и только тогда, когда существует положительная корреляция внутриклассовых в данных . Эмпирически говоря, большинство кластеризованных наборов данных в большинстве случаев показывают положительную внутриклассовую корреляцию, что означает, что на практике ваша гипотеза обычно верна. Но если внутриклассовая корреляция равна 0, то два упомянутых вами случая одинаково информативны. И если внутриклассовая корреляция отрицательна , то на самом деле менее информативно проводить меньше измерений на большем количестве предметов; На самом деле мы бы предпочли (что касается уменьшения дисперсии оценки параметра) провести все наши измерения на одном объекте.
Статистически Есть две точки зрения , с которой мы можем думать об этом: а случайные эффекты (или смешанной ) модели , которые вы упоминаете в своем вопросе, или предельная модель , которая в конечном итоге быть немного более информативными здесь.
Модель со случайными эффектами (смешанная)
Скажем, у нас есть набор из субъектов, у которых мы провели по измерений. Тогда простой моделью случайных эффектов го измерения от го субъекта может быть
где - фиксированный перехват, - случайный объектный эффект (с дисперсия ), - член ошибки уровня наблюдения (с дисперсией ), а последние два случайных члена являются независимыми.m j i y i j = β + u i + e i j , β u i σ 2 u e i j σ 2 eNмJя
Yя ж= β+ тыя+ ея ж,
βUяσ2Uея жσ2е
В этой модели представляет среднее значение по совокупности, и при сбалансированном наборе данных (т. Е. Равном количестве измерений от каждого субъекта) наша лучшая оценка - это просто среднее по выборке. Таким образом, если мы возьмем «больше информации» для обозначения меньшей дисперсии для этой оценки, то в основном мы хотим знать, как дисперсия среднего значения выборки зависит от и . С небольшим количеством алгебры мы можем решить, что
n m var ( 1βNм
var(1nm∑i∑jyij)=var(1nm∑i∑jβ+ui+eij)=1n2m2var(∑i∑jui+∑i∑jeij)=1n2m2(m2∑ivar(ui)+∑i∑jvar(eij))=1n2m2(nm2σ2u+nmσ2e)=σ2un+σ2enm.
Изучив это выражение, мы увидим, что
всякий раз ,
когда есть какая-либо предметная дисперсия (т. е. ), увеличение числа субъектов ( ) будет оба эти термина, увеличивая при этом число измерений на субъект (
σ2u>0nm) только сделает второй член меньшим. (Для практического применения этого для разработки проектов репликации нескольких сайтов, см.
Этот пост в блоге, который я написал некоторое время назад .)
Теперь вы хотели знать, что происходит, когда мы увеличиваем или уменьшаем или при постоянном общем количестве наблюдений. Поэтому для этого мы считаем константой, так что все выражение дисперсии выглядит как
которое настолько мало, насколько это возможно, когда настолько велико, что возможно (до максимума , в этом случае , что означает, что мы проводим одно измерение для каждого субъекта).mnnm
σ2un+constant,
nn=nmm=1
В моем коротком ответе говорилось о внутриклассовой корреляции, так где же это вписывается? В этой простой модели случайных эффектов внутриклассовая корреляция имеет вид
(набросок вывода здесь ). Таким образом, мы можем написать приведенное выше уравнение дисперсии как
Это действительно не добавляет понимание того, что мы уже видели выше, но это заставляет задуматься: поскольку внутриклассовая корреляция является истинным коэффициентом корреляции, а коэффициенты корреляции могут быть отрицательными, что произойдет (и что это будет означать), если внутриклассный корреляция была отрицательной?
ρ=σ2uσ2u+σ2e
var(1nm∑i∑jyij)=σ2un+σ2enm=(ρn+1−ρnm)(σ2u+σ2e)
В контексте модели случайных эффектов отрицательная внутриклассовая корреляция на самом деле не имеет смысла, поскольку подразумевает, что субъектная дисперсия как-то отрицательна (как мы можем видеть из приведенного выше уравнения , и как объяснено здесь и здесь ) ... но отклонения не могут быть отрицательными! Но это не значит, что концепция отрицательной внутриклассовой корреляции не имеет смысла; это просто означает, что модель случайных эффектов не имеет никакого способа выразить эту концепцию, что является провалом модели, а не концепции. Чтобы адекватно выразить эту концепцию, нам нужно рассмотреть маржинальную модель.σ2uρ
Маргинальная модель
Для этого же набора данных мы могли бы рассмотреть так называемую предельную модель ,
где в основном мы перенесли случайный предметный эффект ранее в термин ошибки так что мы имеем . В модели случайных эффектов мы рассматривали два случайных члена и как iid , но в маргинальной модели вместо этого мы рассматриваем чтобы следовать блочно-диагональной ковариационной матрице нравиться
yij
yij=β+e∗ij,
uieije∗ij=ui+eijuieije∗ijCC=σ2⎡⎣⎢⎢⎢⎢⎢R0⋮00R⋮0⋯⋯⋱⋯00⋮R⎤⎦⎥⎥⎥⎥⎥,R=⎡⎣⎢⎢⎢⎢⎢1ρ⋮ρρ1⋮ρ⋯⋯⋱⋯ρρ⋮1⎤⎦⎥⎥⎥⎥⎥
На словах это означает, что при маргинальной модели мы просто рассматриваем - ожидаемая корреляция между двумя s от одного и того же субъекта (мы предполагаем, что корреляция между субъектами равна 0). Когда
ρe∗ρположительно, два наблюдения, сделанные от одного и того же субъекта, в среднем более похожи (ближе друг к другу), чем два наблюдения, произвольно взятые из набора данных, игнорируя кластеризацию из-за субъектов. Когда является
отрицательным , два наблюдения , сделанные из того же предмета , как правило,
менее похожи (дальше друг от друга), в среднем, чем двух наблюдений полностью составленных в случайном порядке. (Подробнее об этой интерпретации в
вопросе / ответах здесь .)
ρ
Так что теперь, когда мы смотрим на уравнение для дисперсии среднего значения выборки в маргинальной модели, мы имеем
которое является тем же выражением дисперсии, которое мы получили выше для модели случайных эффектов, только с , что согласуется с нашим примечанием выше, что
var(1nm∑i∑jyij)=var(1nm∑i∑jβ+e∗ij)=1n2m2var(∑i∑je∗ij)=1n2m2(n(mσ2+(m2−m)ρσ2))=σ2(1+(m−1)ρ)nm=(ρn+1−ρnm)σ2,
σ2e+σ2u=σ2e∗ij=ui+eij, Преимущество этой (статистически эквивалентной) точки зрения состоит в том, что здесь мы можем думать об отрицательной внутриклассовой корреляции без необходимости вызывать какие-либо странные понятия, такие как отрицательная субъектная дисперсия. Отрицательные внутриклассовые корреляции просто вписываются в эту структуру.
(Кстати, просто немного в стороне, чтобы указать, что от второй до последней строки приведенного выше вывода означает, что мы должны иметь , иначе все уравнение будет отрицательным, но дисперсия не может быть отрицательным! Таким образом, существует нижняя граница внутриклассовой корреляции, которая зависит от того, сколько измерений мы имеем на кластер. Для (т. е. мы измеряем каждый предмет дважды), внутриклассовая корреляция может пойти вплоть до ; при он может опуститься только до и т. д. Интересный факт!)ρ≥−1/(m−1)m=2ρ=−1m=3ρ=−1/2
Итак, наконец, еще раз, рассматривая общее число наблюдений как константу, мы видим, что вторая-последняя строка вывода выше выглядит так:
Поэтому, когда , имея как можно меньше (чтобы мы проводили меньше измерений для большего количества субъектов - в пределе, 1 измерение для каждого субъекта) делает дисперсию оценки настолько малой, насколько это возможно. Но когда , мы на самом деле хотим, чтобы было как можно большим (чтобы в пределе мы брали все измерения в от одного объекта), чтобы сделать дисперсию как можно меньше. И когда( 1 + ( m - 1 ) ρ ) × положительная постоянная . ρ > 0nm
(1+(m−1)ρ)×positive constant.
ρ>0ρ < 0 м н м ρ = 0 м нmρ<0mnmρ=0 , дисперсия оценки является просто константой, поэтому наше распределение и не имеет значения.
mn