По сути, мой вопрос заключается в том, что в многослойных персептронах персептроны используются с сигмовидной активационной функцией. Так что в правиле обновления у вычисляется как
Чем этот «сигмовидный» персептрон отличается от логистической регрессии?
Я бы сказал , что однослойный персептрон сигмовидной эквивалентно логистической регрессии в том смысле , что оба используют у = 1 в правиле обновления. Кроме, как обратныйзнак( у =1в прогнозе. Однако в многослойных персептронах функция активации сигмоида используется для возврата вероятности, а не сигнала включения-выключения в отличие от логистической регрессии и однослойного персептрона.
Я думаю, что использование термина «персептрон» может быть немного неоднозначным, поэтому позвольте мне дать некоторые сведения, основанные на моем текущем понимании однослойных персептронов:
Классическое правило персептрона
Во-первых, классический персептрон Ф. Розенблатта, где у нас есть ступенчатая функция:
обновить веса
Так что у рассчитывается как
Градиентный спуск
Используя градиентный спуск, мы оптимизируем (минимизируем) функцию стоимости
где у нас есть «реальные» числа, так что я вижу это в основном аналогично линейной регрессии с той разницей, что наш классификационный результат имеет пороговое значение.
Здесь мы делаем шаг в отрицательном направлении градиента, когда мы обновляем веса
Но здесь мы имеем у = ш Т х я вместо у = знак ( ш Т х I )
Кроме того, мы рассчитываем сумму квадратов ошибок для полного прохода по всему набору обучающих данных (в режиме пакетного обучения) в отличие от классического правила персептрона, которое обновляет весовые коэффициенты по мере поступления новых обучающих выборок (аналог стохастического градиентного спуска - онлайн учусь).
Сигмовидная функция активации
Теперь вот мой вопрос:
В многослойных персептронах персептроны используются с сигмовидной функцией активации. Так что в правиле обновления у вычисляется как
Чем этот «сигмовидный» персептрон отличается от логистической регрессии?