Я буду дифференцировать анализ с использованием моделей на основе надежных стандартных ошибок, называя последние «GEE», что фактически является взаимозаменяемым определением. В дополнение к фантастическому объяснению Scortchi:
GEE могут быть «предвзятыми» в небольших выборках, то есть в 10-50 субъектах: (Lipsitz, Laird, Harrington, 1990; Emrich и Piedmonte, 1992; Sharples и Breslow, 1992; Lipsitz et al., 1994; Qu, Piedmonte, and Williams, 1994; Gunsolley, Getchell и Chinchilli, 1995; Sherman and le Cessie, 1997.) Когда я говорю, что GEE предвзяты, я имею в виду, что стандартная оценка ошибки может быть либо консервативной, либо антиконсервативной из-за малого или нулевого числа ячеек в зависимости от того, какие подогнанные значения демонстрируют это поведение и насколько они согласуются с общей тенденцией регрессионной модели.
В общем, когда параметрическая модель задана правильно, вы все равно получаете правильные оценки стандартных ошибок от CI, основанных на модели, но весь смысл использования GEE состоит в том, чтобы учесть это очень большое «если». GEE позволяют статистику просто определять рабочую вероятностную модель для данных, а параметры (вместо того, чтобы интерпретироваться в строго параметрической структуре) считаются типом «решета», который может генерировать воспроизводимые значения независимо от базовой, неизвестной генерации данных механизм. Это сердце и душа полупараметрического анализа, примером которого является GEE.
GEE также обрабатывают неизмеренные источники ковариации в данных, даже с указанием независимой корреляционной матрицы. Это из-за использования эмпирической, а не основанной на модели ковариационной матрицы. Например, при моделировании Пуассона вас могут заинтересовать показатели рождаемости лосося, отобранные из различных потоков. Яйца, добытые из самок, могут иметь основное распределение Пуассона, но генетические вариации, которые включают общую схожесть и доступные ресурсы в определенных потоках, могут сделать рыбу в этих потоках более похожей, чем среди других потоков. GEE будет давать правильные оценки стандартных погрешностей населения, если частота выборки соответствует их доле населения (или другим образом стратифицируется).