Есть ли предположение о логистической регрессии?

Есть ли предположение о переменной ответа логистической регрессии?

Например, предположим, у нас есть точек данных. Похоже, что ответ исходит из дистрибутива Бернулли с . Следовательно, мы должны иметь распределений Бернулли с другим параметром . $1000$ $Y_i$ $p_i=\text{logit}(\beta_0+\beta_1 x_i)$ $1000$ $p$

Таким образом, они «независимы», но не «идентичны».

Я прав?

PS. Я изучил логистическую регрессию из литературы по «машинному обучению», где мы оптимизируем целевую функцию и проверяем, хороша ли она при тестировании данных, не говоря слишком много о допущениях.

Мой вопрос начался с этого поста « Понять функцию связи в обобщенной линейной модели», где я пытаюсь узнать больше о статистических предположениях.

— Haitao Du
источник

«Предположение» - это то, что может иметь теорема. Линейная регрессия имеет «предположение» об ошибках iid (это не , «предполагаемые» как iid в линейной регрессии! Это ошибки) в том смысле, что теорема Гаусса-Маркова имеет это предположение. Теперь, есть ли теорема о том, что у человека есть разум для логистической регрессии? Если нет, то нет никаких «предположений».

y

$y$

— говорит амеба, восстанови Монику

@ Amoeba, hxd правильно, отметив, что распределения не идентичны: «iid» не применяется. Если кто-то использует логистическую регрессию только для ее соответствия, то (как вы пишете), возможно, понадобится несколько предположений; но как только кто-то использует оценочную ковариационную матрицу коэффициентов или желает построить интервалы прогнозирования (или, в этом отношении, перекрестную проверку прогнозируемых значений), тогда это требует вероятностных допущений. Обычным является то, что ответы независимы.

— whuber

@amoeba, как только вы захотите выполнить вывод (тесты гипотез, доверительные интервалы и т. д.), а не просто рассчитать оценки параметров, вы сделаете множество предположений (некоторые более критичные, чем другие), чтобы иметь возможность получить соответствующее нулевое распределение проверить статистику или необходимые расчеты за интервал с желаемым охватом. Даже в процедурах с относительно низким уровнем допущений все же существуют допущения, и если мы заботимся о наших выводах, мы позаботимся о том, чтобы они, вероятно, имели что-то близкое к их номинальным свойствам.

— Glen_b

@amoeba, мне нравится теорема, которая показывает асимптотическую нормальность MLE. Мне также нравится тест отношения правдоподобия.

— gammer

Их предельные распределения не идентичны, если только они не имеют одно и то же значение предиктора, и в этом случае у вас просто испытания IID Бернулли. Их условные распределения (с учетом предиктора) одинаковы, но я не думаю, что вы обычно говорите, что в этом случае - IID.

Y_{i}

$Y_i$

— gammer

Ответы:

Из вашего предыдущего вопроса вы узнали, что GLM описывается в терминах распределения вероятностей, линейного предиктора и функции связи и описывается как $\eta$ $g$

\begin{aligned} η & = X β \\ E (Y | X) & = μ = g^{- 1} (η) \end{aligned}

$\begin{align} \eta &= X\beta \\ E(Y|X) &= \mu = g^{-1}(\eta) \end{align}$

где - функция логит-линка, а как предполагается, следует распределению Бернулли $g$ $Y$

Y_{i} \sim B (μ_{i})

$Y_i \sim \mathcal{B}(\mu_i)$

каждый следует распределение Бернулли с его собственным средним , что обусловливается . Мы не предполагаем, что каждый происходит из одного и того же распределения с одинаковым средним значением (это будет модель только для перехвата ), но все они имеют разные средства. Мы предполагаем , что «s является независимым , то есть мы не должны беспокоиться о таких вещах, как автокорреляции между последовательными значениями и т.д. $Y_i$ $\mu_i$ $X$ $Y_i$ $Y_i = g^{-1}(\mu)$ $Y_i$ $Y_i$

Н.о.р. предположение связано с ошибками в линейной регрессии (т.е. Gaussian GLM), где модель

y_{i} = β_{0} + β_{1} x_{i} + ε_{i} = μ_{i} + ε_{i}

$y_i = \beta_0 + \beta_1 x_i + \varepsilon_i = \mu_i + \varepsilon_i$

где , так что мы IID шум вокруг . Вот почему интересуются диагностикой остатков и обращают внимание на соответствие остатков и построенный участок . Теперь, в случае с GLM-подобной логистической регрессией, это не так просто, так как не существует аддитивного термина шума, как в модели Гаусса (см. Здесь , здесь и здесь ). Мы по-прежнему хотим, чтобы остатки были «случайными» вокруг нуля, и мы не хотим видеть в них каких-либо тенденций, поскольку они предполагают, что есть некоторые эффекты, которые не учитываются в модели, но мы не предполагаем, что они нормальный и / или $\varepsilon_i \sim \mathcal{N}(0, \sigma^2)$ $\mu_i$ н.о.р. . См. Также о важности предположения iid в статистической цепочке обучения .

Заметьте, что мы можем даже отбросить предположение, что каждый происходит из одного и того же вида распределения. Существуют (не GLM) модели, которые предполагают, что разные могут иметь разные распределения с разными параметрами, то есть что ваши данные поступают из смеси разных распределений . В таком случае мы также предположили бы, что значения являются независимыми , поскольку зависимые значения, поступающие из разных распределений с разными параметрами (то есть типичные данные реального мира), являются чем-то, что в большинстве случаев было бы слишком сложно моделировать (часто невозможно). $Y_i$ $Y_i$ $Y_i$

— Тим
источник

Как уже говорилось, хотя мы часто рассматриваем случай ошибок IID в линейной регрессии, это не имеет прямого эквивалента в большинстве обобщенных линейных моделей (включая логистическую регрессию). В логистической регрессии мы обычно используем допущение независимости результатов, которые все имеют очень строгое отношение (т. Е. Линейное влияние на логарифмические вероятности). Но это приводит к случайным переменным, которые не являются идентичными, и при этом они не могут быть разложены в постоянный член плюс ошибка iid, как в случае с линейной регрессией.

Если вы действительно хотите показать, что ответы имеют какое-то отношение к iid, следуйте за мной в следующем абзаце. Просто знайте, что эта идея немного в глуши; Вы не можете получить полную оценку этого ответа в финале, если вашему профессору не хватает терпения.

Возможно, вы знакомы с методом обратного cdf для генерации случайных величин. Если нет, вот переподготовка: если имеет кумулятивную функцию распределения , то я могу производить случайные отрисовки из , сначала взяв случайные отрисовки затем вычислив . Как это связано с логистической регрессией? Ну, мы могли бы подумать, что процесс генерации наших ответов состоит из двух частей; фиксированная часть, связывающая ковариаты с вероятностями успеха, и случайная часть, которая определяет значение условной случайной величины на фиксированной части. Фиксированная часть определяется функцией связи логистической регрессии, т.е. $X$ $F_X$ $X$ $q \sim \text{uniform(0,1)}$ $X = F_X^{-1}(q)$ $p = \text{expit}(\beta_o + \beta_1 x)$ $F_Y( y | p)$ $p$ $Y_i$

$p_i = \text{expit}(\beta_o + \beta_1 x_i)$

$q_i \sim\text{uniform(0,1)}$

$Y_i = F^{-1}(q_i | p_i)$

$q_i$

— Клифф AB
источник

q_{i}

$q_i$

Y_{i} \sim B (p_{i})

$Y_i \sim \mathcal{B}(p_i)$

Y_{i}

$Y_i$

p_{i}

$p_i$

q_{i}

$q_i$

@Tim: да, вторая часть ответа представляет собой скорее интересную заметку, чем краткий ответ. Но это может быть полезным способом посмотреть на это; в конце концов, именно так ваш компьютер моделирует данные этих моделей!

— Клифф А.Б.