В чем разница между логистической регрессией и персептроном?

30

Я собираюсь через лекцию Эндрю Нг ноту на Machine Learning.

Примечания знакомят нас с логистической регрессией, а затем с персептроном. При описании Перцептрона в заметках говорится, что мы просто изменили определение пороговой функции, используемой для логистической регрессии. После этого мы можем использовать модель Perceptron для классификации.

Итак, мой вопрос - если это необходимо указать, и мы рассматриваем Перцептрон как метод классификации, то что именно представляет собой логистическая регрессия? Используется ли просто для получения вероятности того, что точка данных принадлежит одному из классов?

— GrowinMan
источник

Хороший вопрос, я считаю, что очень важно, как вы начинаете объяснение по NN, особенно потому, что NN может быть очень сложным для понимания, пожалуйста. примите во внимание мой ответ.

— прости

22

Короче говоря, логистическая регрессия имеет вероятностные коннотации, которые выходят за рамки использования классификатора в ОД. У меня есть некоторые заметки о логистической регрессии здесь .

Гипотеза в логистической регрессии обеспечивает меру неопределенности в возникновении бинарного исхода на основе линейной модели. Выходные данные асимптотически ограничены между и и зависят от линейной модели, так что когда базовая линия регрессии имеет значение , логистическое уравнение равно , обеспечивая естественная точка отсечения для целей классификации. Однако это происходит за счет выброса информации о вероятности в фактический результат , что часто интересно (например, вероятность дефолта по кредиту с учетом дохода, кредитный рейтинг, возраст и т. Д.). $0$ $1$ $0$ $0.5 = \frac{e^0}{1+e^0}$ $h(\Theta^T\bf x) =\frac{e^{\Theta^T \bf x}}{1 +e^{\Theta^T\bf x}}$

Алгоритм классификации персептрона является более базовой процедурой, основанной на точечных произведениях между примерами и весами . Всякий раз, когда пример неправильно классифицирован, знак точечного произведения расходится со значением классификации ( и ) в обучающем наборе. Чтобы исправить это, примерный вектор будет итеративно добавляться или вычитаться из вектора весов или коэффициентов, постепенно обновляя его элементы: $-1$ $1$

В векторном виде функций или атрибутов примера являются , и идея состоит в том, чтобы "передать" пример, если: $d$ $\bf x$

$\displaystyle \sum_{1}^d \theta_i x_i > \text{theshold}$ или ...

$h(x) = \text{sign}\big(\displaystyle \sum_{1}^d \theta_i x_i - \text{theshold}\big)$ . Функция знака приводит к или , в отличие от и в логистической регрессии. $1$ $-1$ $0$ $1$

Порог будет поглощен в коэффициент смещения , . Формула сейчас: $+ \theta_0$

$h(x) = \text{sign}\big(\displaystyle \sum_0^d \theta_i x_i\big)$ или векторизованный: . $h(x) = \text{sign}(\theta^T\bf x)$

У неправильно классифицированных точек будет , что означает, что произведение точек и будет положительным (векторы в одном и том же направлении), когда отрицательно, или скалярное произведение будет отрицательным (векторы в противоположных направлениях), а положительным. $\text{sign}(\theta^T\bf x) \neq y_n$ $\Theta$ $\bf x_n$ $y_n$ $y_n$

Я работал над различиями между этими двумя методами в наборе данных из того же курса , в котором результаты теста в двух отдельных экзаменах связаны с окончательным поступлением в колледж:

Границу решения можно легко найти с помощью логистической регрессии, но было интересно увидеть, что хотя коэффициенты, полученные с помощью персептрона, значительно отличались от коэффициентов логистической регрессии, простое применение функции к результатам дало такой же хороший алгоритм классификации. Фактически максимальная точность (предел, установленный линейной неразделимостью некоторых примеров) была достигнута второй итерацией. Вот последовательность линий деления границы, когда итераций аппроксимировали веса, начиная со случайного вектора коэффициентов: $\text{sign}(\cdot)$ $10$

Точность классификации в зависимости от числа итераций быстро возрастает и составляет , что соответствует тому, насколько быстро достигается почти оптимальная граница решения в видеоролике выше. Вот график кривой обучения: $90\%$

Код используется здесь .

— Антони Пареллада
источник

5

Здесь может возникнуть некоторая путаница. Первоначально персептрон имел в виду только нейронные сети с функцией шага в качестве передаточной функции. В этом случае, конечно, различие заключается в том, что логистическая регрессия использует логистическую функцию, а персептрон использует ступенчатую функцию. В целом оба алгоритма должны давать одну и ту же границу решения (по крайней мере, для одного нейронного персептрона). Тем не мение:

Вектор параметров для персептрона может быть произвольно масштабирован по сравнению с вектором, полученным логистической регрессией. Любое масштабирование вектора параметров будет определять ту же границу, но вероятности, рассчитанные с помощью логистической регрессии, зависят от точного масштабирования.
Вывод из ступенчатой функции, конечно, нельзя интерпретировать как какую-либо вероятность.
Поскольку ступенчатая функция не дифференцируема, невозможно обучить персептрон, используя те же алгоритмы, которые используются для логистической регрессии.

В некоторых случаях термин персептрон также используется для обозначения нейронных сетей, которые используют логистическую функцию в качестве передаточной функции (однако, это не соответствует исходной терминологии). В этом случае логистическая регрессия и «персептрон» в точности совпадают. Конечно, с персептроном можно использовать несколько нейронов, все из которых используют логистическую передаточную функцию, которая становится в некоторой степени пригодной для суммирования логистической регрессии (не то же самое, но похожее).

— LiKao
источник

2

Вы можете использовать логистическую регрессию для создания персептрона. Логистическая регрессия использует логистическую функцию для построения выходных данных из заданных входных данных. Логистическая функция производит плавный вывод между 0 и 1, поэтому вам нужно сделать еще одну вещь, чтобы сделать ее классификатором, который является пороговым значением. Перцептроны могут быть построены с другими функциональными формами, конечно, не только с логистикой .

Y ({Икс}_{1}, {Икс}_{2} | б) знак равно \frac{е^{б_{0} + б_{1} {Икс}_{1} + б_{2} {Икс}_{2}}}{1 + е^{б_{0} + б_{1} {Икс}_{1} + б_{2} {Икс}_{2}}}

$y(x_1,x_2|b)=\frac{e^{b_0+b_1x_1+b_2x_2}}{1+e^{b_0+b_1x_1+b_2x_2}}$

b_{1}, b_{2}, b_{3}

$b_1,b_2,b_3$

\frac{e^{x}}{1 + e^{x}}

$\frac{e^x}{1+e^x}$

$y(x|b)$ $x$ $b$ $y$ $Y$ $\tilde y=0$ $y(x|b)<Y$ $\tilde y=1$ $y(x|b)\ge Y$

— Аксакал
источник

1

Они оба применяют регрессию, оценивая параметры одной и той же логистически преобразованной модели. В соответствии со свойствами выпуклых функций, значения параметров будут одинаковыми при любом способе их оценки. Цитирую себя из предыдущего ответа:

Логистическая регрессия моделирует функцию среднего распределения Бернулли как линейное уравнение (среднее значение равно вероятности p события Бернулли). Используя ссылку logit как функцию от среднего значения (p), логарифм шансов (log-odds) можно получить аналитически и использовать в качестве ответа так называемой обобщенной линейной модели. Вдобавок к предсказанию, это позволяет интерпретировать модель в причинно-следственной связи. Это то, чего вы не можете достичь с помощью линейного персептрона.

Перцептрон принимает обратную логит (логистическую) функцию от wx и не использует вероятностные предположения ни для модели, ни для ее параметра. Онлайновое обучение даст вам точно такие же оценки для весов / параметров модели, но вы не сможете интерпретировать их в причинно-следственной связи из-за отсутствия p-значений, доверительных интервалов и, следовательно, базовой вероятностной модели.

— Digio
источник

1

$x_1,\ldots, x_N \in \mathbb R^n$ $y_1,\ldots,y_N \in \{-1, 1 \}$ $1$ $x_i$

\begin{aligned} (1) & минимизировать & \frac{1}{N} Σ_{я знак равно 1}^{N} Максимум (- Y_{я} β^{T} {Икс}_{я}, 0), \end{aligned}

$\begin{align} \tag{1}\text{minimize} & \quad \frac{1}{N}\sum_{i=1}^N \max(-y_i\beta^T x_i,0). \end{align}$

β \in R^{n + 1}

$\beta \in \mathbb R^{n+1}$

$\frac{1}{N}\sum_i \ell_i(\beta)$

ℓ_{я} (β) знак равно Максимум (- Y_{я} β^{T} {Икс}_{я}, 0),

$\ell_i(\beta) = \max(-y_i \beta^T x_i,0).$

ℓ_{i}

$\ell_i$

β

$\beta$

г знак равно {\begin{cases} 0 & если - Y_{я} β^{T} {Икс}_{я} \leq 0 (так Y_{я} а также β^{T} {Икс}_{я} иметь такой же знак) \\ - Y_{я} {Икс}_{я} & иначе. \end{cases}

$g = \begin{cases} 0 & \quad \text{if } -y_i \beta^T x_i \leq 0 \qquad \text{(so $y_i$ and $\beta^T x_i$ have the same sign)}\\ - y_i x_i & \quad \text{otherwise.} \end{cases}$

t > 0)

$t > 0)$

i

$i$

β \leftarrow β - T г знак равно {\begin{cases} β & если Y_{я} а также β^{T} {Икс}_{я} иметь такой же знак \\ β + T Y_{я} {Икс}_{я} & иначе. \end{cases}

$\beta \leftarrow \beta - t g = \begin{cases} \beta & \quad \text{if $y_i$ and $\beta^T x_i$ have the same sign} \\ \beta + t y_i x_i & \quad \text{otherwise.} \end{cases}$

t

$t$

— littleO
источник

0

Эндрю Нг использовал термин «логистическая регрессия» в качестве модели для решения проблемы двоичной классификации.

Как вы можете видеть в газете, он на самом деле никогда не рисует саму модель.

Позвольте мне добавить несколько деталей к ведру, чтобы вы могли найти обоснование того, как я думаю, что он построил лекции.

Модель, используемая для «логистической регрессии», представляет собой одноуровневое восприятие с произвольным числом входов и одним выходом в диапазоне от 0 до 1.

Еще в 90-х годах наиболее ценной функцией активации была сигмоидальная функция активации, и в качестве резервной копии существует отличная математическая теория.

Это именно та модель, которую использует Эндрю Нг, поскольку эта функция варьируется от 0 до 1.

Также производная s'(x) = s(x)(1−s(x)), где s(x)сигмоидальная функция активации.

Для функции ошибки он использует L2, хотя в некоторых работах он может использовать для этого другую функцию.

Напомним, что при рассмотрении «логистической регрессии» просто учитывайте одноуровневое восприятие с сигмоидальной функцией активации, настраиваемое количество входов и один выход.

Несколько замечаний: нет ничего плохого в сигмоидальной функции активации, хотя для арифметики с плавающей запятой ReLU в настоящее время доминирует над скрытыми слоями, но в ближайшем будущем позиции (или некоторые другие арифметические единицы) могут вернуть сигмоидальную функцию активации обратно в таблицу. ,

Лично я хотел бы использовать более простую модель с функцией ReLU для объяснения SLP (одноуровневого персептрона), так как он больше используется сегодня.

— прости
источник