Как может работать мультиклассовый персептрон?


13

У меня нет математических знаний, но я понимаю, как работает простой Персептрон, и мне кажется, что я понимаю концепцию гиперплоскости (я представляю ее геометрически как плоскость в трехмерном пространстве, которая разделяет два облака точек, так же как линия разделяет облака двух точек в 2D-пространстве).

Но я не понимаю, как одна плоскость или одна линия могли бы разделить три разных облака точек в трехмерном или двумерном пространстве, соответственно - это геометрически невозможно, не так ли?

Я попытался понять соответствующий раздел в статье в Википедии , но уже с треском провалился в предложении «Здесь вход x и выход y взяты из произвольных наборов». Может ли кто-нибудь объяснить мне мультиклассовый персептрон и как он соотносится с идеей гиперплоскости, или, может быть, указать мне на не столь математическое объяснение?

Ответы:


8

Предположим, у нас есть данные где x iR n - входные векторы, а y i{ красный, синий, зеленый } - классификации.(x1,y1),,(xk,yk)xiRnyi{red, blue, green}

Мы знаем, как построить классификатор для бинарных результатов, поэтому мы делаем это три раза: группируем результаты вместе, , { синий, красный или зеленый } и { зеленый, синий или красный } .{red, blue or green}{blue, red or green}{green, blue or red}

Каждая модель принимает вид функции , назовите их f R , f B , f G соответственно. Это принимает входной вектор подписанному расстояния от гиперплоскости , ассоциированной с каждой моделью, где положительные расстояние соответствует предсказанию синего , если F B , красной , если F R и зеленый , если F G . В основном, чем больше положительное f G ( x ) , тем больше модель думает, что xf:RnRfR,fB,fGfBfRfGfG(x)xзеленый, и наоборот. Нам не нужно, чтобы результат был вероятным, нам просто нужно измерить, насколько уверена модель.

Учитывая входное значение , мы классифицируем его в соответствии с argmax c f c ( x ) , поэтому, если f G ( x ) является наибольшим среди { f G ( x ) , f B ( x ) , f R ( x ) }, мы бы предсказывать зеленый для х .xargmaxc fc(x)fG(x){еграмм(Икс),еВ(Икс),ер(Икс)}Икс

Эта стратегия называется «один против всех», и вы можете прочитать об этом здесь .


3

Я не могу понять смысл этой статьи в Вики. Вот альтернативный способ объяснить это.

Перцептрон с одним логистическим выходным узлом является классификационной сетью для 2 классов. Выводит , вероятность быть в одном из классов, а вероятность быть в другом просто 1 - p .p1p

Перцептрон с двумя выходными узлами является классификационной сетью для 3 классов. Два узла каждого выхода вероятность нахождения в классе , и вероятность того , чтобы быть в третьем классе 1 - Σ я = ( 1 , 2 ) р я .pi1i=(1,2)pi

И так далее; персептрон с выходными узлами является классификатором для m + 1 классов. Действительно, если скрытого слоя нет, такой персептрон в основном совпадает с моделью многочленной логистической регрессии , так же как простой персептрон - это то же самое, что логистическая регрессия.mm+1


Вы уверены, что на выходе есть реальная вероятность? Во всяком случае, я не знаю, как работает полиномиальная логистическая регрессия, поэтому я должен рассмотреть это. Но разве нет (алгоритмического) способа объяснить, как устроен персептрон с двумя или более выходными узлами? Они как-то связаны друг с другом?
wnstnsmth
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.