В чем разница между линейной регрессией и логистической регрессией?


122

В чем разница между линейной регрессией и логистической регрессией?

Когда бы вы использовали каждый?


28
В модели линейной регрессии зависимая переменная считается непрерывной, тогда как в логистической регрессии она является категориальной, т. Е. Дискретной. В приложении первый используется в настройках регрессии, в то время как последний используется для бинарной классификации или классификации нескольких классов (где это называется многочленной логистической регрессией). y
Пардис

Хотя он написан в другом контексте, он может помочь вам прочитать мой ответ здесь: Разница между логит-моделями и пробит-моделями , которая содержит много информации о том, что происходит в логистической регрессии, которая может помочь вам лучше понять их.
gung

2
Все предыдущие ответы верны, но есть причины, по которым вы можете предпочесть модель линейной регрессии, даже если ваш результат - дихотомия. Я написал об этих причинах здесь: statisticshorizons.com/linear-vs-logistic
Пол фон Хиппель

Ответы:


111

Линейная регрессия использует общее линейное уравнение , где представляет собой непрерывные зависимые переменные и независимые переменные являются , как правило , непрерывными (но также может быть двоичным, например , когда линейная модель используется в t- тест) или другие дискретные домены. - это термин для дисперсии, который не объясняется моделью и обычно называется просто «ошибка». Отдельные зависимые значения, обозначаемые могут быть решены путем небольшого изменения уравнения:Y X iY=b0+(biXi)+ϵYXiϵYjYj=b0+(biXij)+ϵj

Логистическая регрессия - это еще одна процедура обобщенной линейной модели (GLM), использующая ту же базовую формулу, но вместо непрерывного она регрессирует для вероятности категориального исхода. В простейшей форме это означает, что мы рассматриваем только одну переменную результата и два состояния этой переменной - либо 0, либо 1.Y

Уравнение для вероятности выглядит так: Y=1

P(Y=1)=11+e(b0+(biXi))

Ваши независимые переменные могут быть непрерывными или двоичными. Коэффициенты регрессии могут быть возведены в степень, чтобы дать вам изменение шансов на изменение , то есть и . называется отношением шансов, . На английском языке вы можете сказать, что шансы увеличиваются с коэффициентом на единицу изменения в .XibiYXi ΔOddOdds=P(Y=1)P(Y=0)=P(Y=1)1P(Y=1)ΔOdds=ebiΔOdds Y=1ebiXiOdds(Xi+1)Odds(Xi)Y=1ebiXi

Пример. Если вы хотите узнать, как индекс массы тела предсказывает уровень холестерина в крови (непрерывный показатель), вы бы использовали линейную регрессию, как описано в верхней части моего ответа. Если вы хотите увидеть, как ИМТ прогнозирует вероятность диабета (бинарный диагноз), вы бы использовали логистическую регрессию.


1
Это выглядит как хороший ответ, но не могли бы вы объяснить, что означает и - в частности - почему вы включаете их в суммирования? (В любом случае, что суммируется?)ϵi
whuber

Мне кажется, Билл, что он намеревался написать, т.
Е.

1
Но εi при суммировании показателя не должно быть. Похоже, что шумовой термин в модели был случайно перенесен туда. Единственное суммирование должно быть по бису, представляющему p-коэффициенты для p-ковариат.
Майкл Черник

9
В вашем выражении есть ошибка для . Вы должны иметь не Случайность в модели логистической регрессии проистекает из того факта, что это испытания Бернулли, а не из-за ошибок в вероятностях успеха (а именно как ты это написал). P(Y=1)P(Y=1)=1
P(Y=1)=11+exp{Xβ},
P(Y=1)=11+exp{(Xβ+ε)}
Макро

3
@samthebrand логистическая регрессия не является бинарной как таковой. Он может быть использован для моделирования данных с бинарным откликом с вероятностями в диапазоне от 0 до 1. Собираюсь бесстыдно подключить мой пост к этому блогу, который должен очистить вашу путаницу.
Бен

34

Линейная регрессия используется для установления взаимосвязи между зависимыми и независимыми переменными, что полезно при оценке результирующей зависимой переменной в случае изменения независимой переменной. Например:

Используя линейную регрессию, соотношение между Rain (R) и Umbrella Sales (U) определяется как - U = 2R + 5000

Это уравнение говорит о том, что на каждый 1 мм дождя существует потребность в 5002 зонтах. Таким образом, используя простую регрессию, вы можете оценить значение вашей переменной.

С другой стороны, логистическая регрессия используется для определения вероятности события. И это событие записывается в двоичном формате, то есть 0 или 1.

Пример - я хочу выяснить, купит ли клиент мой товар или нет. Для этого я бы запустил логистическую регрессию для (соответствующих) данных, а моя зависимая переменная была бы двоичной переменной (1 = Да; 0 = Нет).

С точки зрения графического представления, линейная регрессия дает линейную линию в качестве выходных данных, как только значения нанесены на график. Принимая во внимание, что логистическая регрессия дает S-образную линию

Отзыв от Мохит Хурана.


8
Re: «Линейная регрессия используется для установления взаимосвязи между зависимыми и независимыми переменными» - это также верно в отношении логистической регрессии - просто зависимая переменная является двоичной.
Макро

3
Логистическая регрессия не только для прогнозирования двоичного события ( класса). Его можно обобщить на классов (полиномиальная логистическая регрессия)к2k
16:07

27

Различия были урегулированы DocBuckets и Pardis, но я хочу добавить один способ сравнить их производительность, не упомянутую.

Линейная регрессия обычно решается путем минимизации ошибки наименьших квадратов модели к данным, поэтому большие ошибки штрафуются квадратично. Логистическая регрессия как раз наоборот. Использование функции логистических потерь приводит к штрафу больших ошибок к асимптотически постоянной.

Рассмотрим линейную регрессию на категориальных {0,1} результатах, чтобы понять, почему это проблема. Если ваша модель предсказывает, что результат равен 38, а истина равна 1, вы ничего не потеряли. Линейная регрессия будет пытаться уменьшить эти 38, логистическая не будет (так много).


Тогда были бы ситуации / случаи, которые были оштрафованы в логистике, т. Е. В каких случаях мы бы плохо подходили?
MSIS

1
Наоборот, всякий раз, когда большие отклонения от подгонки действительно приводят к худшим результатам. Например, логистическая регрессия хороша для того, чтобы удерживать вас в ударе по дартс, но не может выглядеть привлекательно. Или, аналогично, думает, что ближний промах доски - это то же самое, что прилипание к соседу.
Дж. Абрахамсон

Отличный ответ. Было ли проведено какое-либо исследование о том, насколько это влияет на производительность модели? Я имею в виду, если линейная регрессия использовалась для прогнозирования ответа = {0,1} вместо логистической регрессии.
Тагар
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.