В чем разница между логистической регрессией и персептроном?


30

Я собираюсь через лекцию Эндрю Нг ноту на Machine Learning.

Примечания знакомят нас с логистической регрессией, а затем с персептроном. При описании Перцептрона в заметках говорится, что мы просто изменили определение пороговой функции, используемой для логистической регрессии. После этого мы можем использовать модель Perceptron для классификации.

Итак, мой вопрос - если это необходимо указать, и мы рассматриваем Перцептрон как метод классификации, то что именно представляет собой логистическая регрессия? Используется ли просто для получения вероятности того, что точка данных принадлежит одному из классов?


Хороший вопрос, я считаю, что очень важно, как вы начинаете объяснение по NN, особенно потому, что NN может быть очень сложным для понимания, пожалуйста. примите во внимание мой ответ.
прости

Ответы:


22

Короче говоря, логистическая регрессия имеет вероятностные коннотации, которые выходят за рамки использования классификатора в ОД. У меня есть некоторые заметки о логистической регрессии здесь .

Гипотеза в логистической регрессии обеспечивает меру неопределенности в возникновении бинарного исхода на основе линейной модели. Выходные данные асимптотически ограничены между и и зависят от линейной модели, так что когда базовая линия регрессии имеет значение , логистическое уравнение равно , обеспечивая естественная точка отсечения для целей классификации. Однако это происходит за счет выброса информации о вероятности в фактический результат , что часто интересно (например, вероятность дефолта по кредиту с учетом дохода, кредитный рейтинг, возраст и т. Д.).1 0 0,5 = е 0010 h(ΘTx)=e Θ T x0,5знак равное01+е0час(ΘTИкс)знак равноеΘTИкс1+еΘTИкс

Алгоритм классификации персептрона является более базовой процедурой, основанной на точечных произведениях между примерами и весами . Всякий раз, когда пример неправильно классифицирован, знак точечного произведения расходится со значением классификации ( и ) в обучающем наборе. Чтобы исправить это, примерный вектор будет итеративно добавляться или вычитаться из вектора весов или коэффициентов, постепенно обновляя его элементы:1-11

В векторном виде функций или атрибутов примера являются , и идея состоит в том, чтобы "передать" пример, если:хdИкс

Σ1dθяИкся>theshold или ...

1 - 1 0 1час(Икс)знак равноподписать(Σ1dθяИкся-theshold) . Функция знака приводит к или , в отличие от и в логистической регрессии.1-101

Порог будет поглощен в коэффициент смещения , . Формула сейчас:+θ0

час(Икс)знак равноподписать(Σ0dθяИкся) или векторизованный: .час(Икс)знак равноподписать(θTИкс)

У неправильно классифицированных точек будет , что означает, что произведение точек и будет положительным (векторы в одном и том же направлении), когда отрицательно, или скалярное произведение будет отрицательным (векторы в противоположных направлениях), а положительным.подписать(θTИкс)YNΘИксNYNYN


Я работал над различиями между этими двумя методами в наборе данных из того же курса , в котором результаты теста в двух отдельных экзаменах связаны с окончательным поступлением в колледж:

Границу решения можно легко найти с помощью логистической регрессии, но было интересно увидеть, что хотя коэффициенты, полученные с помощью персептрона, значительно отличались от коэффициентов логистической регрессии, простое применение функции к результатам дало такой же хороший алгоритм классификации. Фактически максимальная точность (предел, установленный линейной неразделимостью некоторых примеров) была достигнута второй итерацией. Вот последовательность линий деления границы, когда итераций аппроксимировали веса, начиная со случайного вектора коэффициентов:подписать()10

Точность классификации в зависимости от числа итераций быстро возрастает и составляет , что соответствует тому, насколько быстро достигается почти оптимальная граница решения в видеоролике выше. Вот график кривой обучения:90%

введите описание изображения здесь


Код используется здесь .


5

Здесь может возникнуть некоторая путаница. Первоначально персептрон имел в виду только нейронные сети с функцией шага в качестве передаточной функции. В этом случае, конечно, различие заключается в том, что логистическая регрессия использует логистическую функцию, а персептрон использует ступенчатую функцию. В целом оба алгоритма должны давать одну и ту же границу решения (по крайней мере, для одного нейронного персептрона). Тем не мение:

  1. Вектор параметров для персептрона может быть произвольно масштабирован по сравнению с вектором, полученным логистической регрессией. Любое масштабирование вектора параметров будет определять ту же границу, но вероятности, рассчитанные с помощью логистической регрессии, зависят от точного масштабирования.
  2. Вывод из ступенчатой ​​функции, конечно, нельзя интерпретировать как какую-либо вероятность.
  3. Поскольку ступенчатая функция не дифференцируема, невозможно обучить персептрон, используя те же алгоритмы, которые используются для логистической регрессии.

В некоторых случаях термин персептрон также используется для обозначения нейронных сетей, которые используют логистическую функцию в качестве передаточной функции (однако, это не соответствует исходной терминологии). В этом случае логистическая регрессия и «персептрон» в точности совпадают. Конечно, с персептроном можно использовать несколько нейронов, все из которых используют логистическую передаточную функцию, которая становится в некоторой степени пригодной для суммирования логистической регрессии (не то же самое, но похожее).


2

Вы можете использовать логистическую регрессию для создания персептрона. Логистическая регрессия использует логистическую функцию для построения выходных данных из заданных входных данных. Логистическая функция производит плавный вывод между 0 и 1, поэтому вам нужно сделать еще одну вещь, чтобы сделать ее классификатором, который является пороговым значением. Перцептроны могут быть построены с другими функциональными формами, конечно, не только с логистикой .

Y(Икс1,Икс2|б)знак равноеб0+б1Икс1+б2Икс21+еб0+б1Икс1+б2Икс2
б1,б2,б3еИкс1+еИкс

Y(Икс|б)ИксбYYY~знак равно0Y(Икс|б)<YY~знак равно1Y(Икс|б)Y


1

Они оба применяют регрессию, оценивая параметры одной и той же логистически преобразованной модели. В соответствии со свойствами выпуклых функций, значения параметров будут одинаковыми при любом способе их оценки. Цитирую себя из предыдущего ответа:

Логистическая регрессия моделирует функцию среднего распределения Бернулли как линейное уравнение (среднее значение равно вероятности p события Бернулли). Используя ссылку logit как функцию от среднего значения (p), логарифм шансов (log-odds) можно получить аналитически и использовать в качестве ответа так называемой обобщенной линейной модели. Вдобавок к предсказанию, это позволяет интерпретировать модель в причинно-следственной связи. Это то, чего вы не можете достичь с помощью линейного персептрона.

Перцептрон принимает обратную логит (логистическую) функцию от wx и не использует вероятностные предположения ни для модели, ни для ее параметра. Онлайновое обучение даст вам точно такие же оценки для весов / параметров модели, но вы не сможете интерпретировать их в причинно-следственной связи из-за отсутствия p-значений, доверительных интервалов и, следовательно, базовой вероятностной модели.


1

Икс1,...,ИксNрNY1,...,YN{-1,1}1Икся

(1)минимизировать1NΣязнак равно1NМаксимум(-YяβTИкся,0),
βрN+1

1NΣяя(β)

я(β)знак равноМаксимум(-YяβTИкся,0),
яβ
гзнак равно{0если -YяβTИкся0(так Yя а также βTИкся иметь такой же знак)-YяИксяиначе.
T>0)я
ββ-Tгзнак равно{βесли Yя а также βTИкся иметь такой же знакβ+TYяИксяиначе.
T


0

Эндрю Нг использовал термин «логистическая регрессия» в качестве модели для решения проблемы двоичной классификации.

Как вы можете видеть в газете, он на самом деле никогда не рисует саму модель.

Позвольте мне добавить несколько деталей к ведру, чтобы вы могли найти обоснование того, как я думаю, что он построил лекции.

Модель, используемая для «логистической регрессии», представляет собой одноуровневое восприятие с произвольным числом входов и одним выходом в диапазоне от 0 до 1.

Еще в 90-х годах наиболее ценной функцией активации была сигмоидальная функция активации, и в качестве резервной копии существует отличная математическая теория.

Это именно та модель, которую использует Эндрю Нг, поскольку эта функция варьируется от 0 до 1.

Также производная s'(x) = s(x)(1−s(x)), где s(x)сигмоидальная функция активации.

Для функции ошибки он использует L2, хотя в некоторых работах он может использовать для этого другую функцию.

Напомним, что при рассмотрении «логистической регрессии» просто учитывайте одноуровневое восприятие с сигмоидальной функцией активации, настраиваемое количество входов и один выход.


Несколько замечаний: нет ничего плохого в сигмоидальной функции активации, хотя для арифметики с плавающей запятой ReLU в настоящее время доминирует над скрытыми слоями, но в ближайшем будущем позиции (или некоторые другие арифметические единицы) могут вернуть сигмоидальную функцию активации обратно в таблицу. ,

Лично я хотел бы использовать более простую модель с функцией ReLU для объяснения SLP (одноуровневого персептрона), так как он больше используется сегодня.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.