В чем разница между линейной регрессией и логистической регрессией?

122

Когда бы вы использовали каждый?

regression logistic linear-model

В модели линейной регрессии зависимая переменная считается непрерывной, тогда как в логистической регрессии она является категориальной, т. Е. Дискретной. В приложении первый используется в настройках регрессии, в то время как последний используется для бинарной классификации или классификации нескольких классов (где это называется многочленной логистической регрессией).

y

$y$

— Пардис

Хотя он написан в другом контексте, он может помочь вам прочитать мой ответ здесь: Разница между логит-моделями и пробит-моделями , которая содержит много информации о том, что происходит в логистической регрессии, которая может помочь вам лучше понять их.

— gung

Все предыдущие ответы верны, но есть причины, по которым вы можете предпочесть модель линейной регрессии, даже если ваш результат - дихотомия. Я написал об этих причинах здесь: statisticshorizons.com/linear-vs-logistic

— Пол фон Хиппель

Ответы:

111

Линейная регрессия использует общее линейное уравнение , где представляет собой непрерывные зависимые переменные и независимые переменные являются , как правило , непрерывными (но также может быть двоичным, например , когда линейная модель используется в t- тест) или другие дискретные домены. - это термин для дисперсии, который не объясняется моделью и обычно называется просто «ошибка». Отдельные зависимые значения, обозначаемые могут быть решены путем небольшого изменения уравнения: $Y=b_0+∑(b_i X_i)+\epsilon$ $Y$ $X_i$ $\epsilon$ $Y_j$ $Y_j=b_0 + \sum{(b_i X_{ij})+\epsilon_j}$

Логистическая регрессия - это еще одна процедура обобщенной линейной модели (GLM), использующая ту же базовую формулу, но вместо непрерывного она регрессирует для вероятности категориального исхода. В простейшей форме это означает, что мы рассматриваем только одну переменную результата и два состояния этой переменной - либо 0, либо 1. $Y$

Уравнение для вероятности выглядит так: $Y=1$

P (Y = 1) = \frac{1}{1 + e^{- (b_{0} + \sum (b_{i} X_{i}))}}

$P(Y=1) = {1 \over 1+e^{-(b_0+\sum{(b_iX_i)})}}$

Ваши независимые переменные могут быть непрерывными или двоичными. Коэффициенты регрессии могут быть возведены в степень, чтобы дать вам изменение шансов на изменение , то есть и . называется отношением шансов, . На английском языке вы можете сказать, что шансы увеличиваются с коэффициентом на единицу изменения в . $X_i$ $b_i$ $Y$ $X_i$ $Odds={P(Y=1) \over P(Y=0)}={P(Y=1) \over 1-P(Y=1)}$ ${\Delta Odds}= e^{b_i}$ $\Delta Odds$ $Odds(X_i+1)\over Odds(X_i)$ $Y=1$ $e^{b_i}$ $X_i$

Пример. Если вы хотите узнать, как индекс массы тела предсказывает уровень холестерина в крови (непрерывный показатель), вы бы использовали линейную регрессию, как описано в верхней части моего ответа. Если вы хотите увидеть, как ИМТ прогнозирует вероятность диабета (бинарный диагноз), вы бы использовали логистическую регрессию.

— DocBuckets
источник

Это выглядит как хороший ответ, но не могли бы вы объяснить, что означает и - в частности - почему вы включаете их в суммирования? (В любом случае, что суммируется?)

ϵ_{i}

$\epsilon_i$

— whuber

Мне кажется, Билл, что он намеревался написать, т.

— Е.

Но εi при суммировании показателя не должно быть. Похоже, что шумовой термин в модели был случайно перенесен туда. Единственное суммирование должно быть по бису, представляющему p-коэффициенты для p-ковариат.

— Майкл Черник

В вашем выражении есть ошибка для . Вы должны иметь не Случайность в модели логистической регрессии проистекает из того факта, что это испытания Бернулли, а не из-за ошибок в вероятностях успеха (а именно как ты это написал).

P (Y = 1)

$P(Y=1)$

P (Y = 1) = \frac{1}{1 + \exp {- X β}},

$P(Y=1) = \frac{1}{1 + \exp \{-X \boldsymbol{\beta} \} },$

P (Y = 1) = \frac{1}{1 + \exp {- (X β + ε)}}

$P(Y=1) = \frac{1}{1 + \exp \{ -(X \boldsymbol{\beta}+\varepsilon) \} }$

— Макро

@samthebrand логистическая регрессия не является бинарной как таковой. Он может быть использован для моделирования данных с бинарным откликом с вероятностями в диапазоне от 0 до 1. Собираюсь бесстыдно подключить мой пост к этому блогу, который должен очистить вашу путаницу.

— Бен

Линейная регрессия используется для установления взаимосвязи между зависимыми и независимыми переменными, что полезно при оценке результирующей зависимой переменной в случае изменения независимой переменной. Например:

Используя линейную регрессию, соотношение между Rain (R) и Umbrella Sales (U) определяется как - U = 2R + 5000

Это уравнение говорит о том, что на каждый 1 мм дождя существует потребность в 5002 зонтах. Таким образом, используя простую регрессию, вы можете оценить значение вашей переменной.

С другой стороны, логистическая регрессия используется для определения вероятности события. И это событие записывается в двоичном формате, то есть 0 или 1.

Пример - я хочу выяснить, купит ли клиент мой товар или нет. Для этого я бы запустил логистическую регрессию для (соответствующих) данных, а моя зависимая переменная была бы двоичной переменной (1 = Да; 0 = Нет).

С точки зрения графического представления, линейная регрессия дает линейную линию в качестве выходных данных, как только значения нанесены на график. Принимая во внимание, что логистическая регрессия дает S-образную линию

Отзыв от Мохит Хурана.

— Виджей Рам
источник

Re: «Линейная регрессия используется для установления взаимосвязи между зависимыми и независимыми переменными» - это также верно в отношении логистической регрессии - просто зависимая переменная является двоичной.

— Макро

Логистическая регрессия не только для прогнозирования двоичного события ( класса). Его можно обобщить на классов (полиномиальная логистическая регрессия)

2

$2$

k

$k$

— 16:07

Различия были урегулированы DocBuckets и Pardis, но я хочу добавить один способ сравнить их производительность, не упомянутую.

Линейная регрессия обычно решается путем минимизации ошибки наименьших квадратов модели к данным, поэтому большие ошибки штрафуются квадратично. Логистическая регрессия как раз наоборот. Использование функции логистических потерь приводит к штрафу больших ошибок к асимптотически постоянной.

Рассмотрим линейную регрессию на категориальных {0,1} результатах, чтобы понять, почему это проблема. Если ваша модель предсказывает, что результат равен 38, а истина равна 1, вы ничего не потеряли. Линейная регрессия будет пытаться уменьшить эти 38, логистическая не будет (так много).

— Дж. Абрахамсон
источник

Тогда были бы ситуации / случаи, которые были оштрафованы в логистике, т. Е. В каких случаях мы бы плохо подходили?

— MSIS

Наоборот, всякий раз, когда большие отклонения от подгонки действительно приводят к худшим результатам. Например, логистическая регрессия хороша для того, чтобы удерживать вас в ударе по дартс, но не может выглядеть привлекательно. Или, аналогично, думает, что ближний промах доски - это то же самое, что прилипание к соседу.

— Дж. Абрахамсон

Отличный ответ. Было ли проведено какое-либо исследование о том, насколько это влияет на производительность модели? Я имею в виду, если линейная регрессия использовалась для прогнозирования ответа = {0,1} вместо логистической регрессии.

— Тагар