Из вашего предыдущего вопроса вы узнали, что GLM описывается в терминах распределения вероятностей, линейного предиктора и функции связи и описывается какгηg
ηЕ( Y| Икс)= Xβ= μ = г- 1( η)
где - функция логит-линка, а как предполагается, следует распределению БернуллиYграммY
Yя∼ B( μя)
каждый следует распределение Бернулли с его собственным средним , что обусловливается . Мы не предполагаем, что каждый происходит из одного и того же распределения с одинаковым средним значением (это будет модель только для перехвата ), но все они имеют разные средства. Мы предполагаем , что «s является независимым , то есть мы не должны беспокоиться о таких вещах, как автокорреляции между последовательными значениями и т.д.μ i X Y i Y i = g - 1 ( μ ) Y i YYя μяИксYiYi=g−1(μ)YiYi
Н.о.р. предположение связано с ошибками в линейной регрессии (т.е. Gaussian GLM), где модель
yi=β0+β1xi+εi=μi+εi
где , так что мы IID шум вокруг . Вот почему интересуются диагностикой остатков и обращают внимание на соответствие остатков и построенный участок . Теперь, в случае с GLM-подобной логистической регрессией, это не так просто, так как не существует аддитивного термина шума, как в модели Гаусса (см. Здесь , здесь и здесь ). Мы по-прежнему хотим, чтобы остатки были «случайными» вокруг нуля, и мы не хотим видеть в них каких-либо тенденций, поскольку они предполагают, что есть некоторые эффекты, которые не учитываются в модели, но мы не предполагаем, что они нормальный и / илиμ iεi∼N(0,σ2)μiн.о.р. . См. Также о важности предположения iid в статистической цепочке обучения .
Заметьте, что мы можем даже отбросить предположение, что каждый происходит из одного и того же вида распределения. Существуют (не GLM) модели, которые предполагают, что разные могут иметь разные распределения с разными параметрами, то есть что ваши данные поступают из смеси разных распределений . В таком случае мы также предположили бы, что значения являются независимыми , поскольку зависимые значения, поступающие из разных распределений с разными параметрами (то есть типичные данные реального мира), являются чем-то, что в большинстве случаев было бы слишком сложно моделировать (часто невозможно).Y i Y яYiYiYi