Как может работать мультиклассовый персептрон?

13

У меня нет математических знаний, но я понимаю, как работает простой Персептрон, и мне кажется, что я понимаю концепцию гиперплоскости (я представляю ее геометрически как плоскость в трехмерном пространстве, которая разделяет два облака точек, так же как линия разделяет облака двух точек в 2D-пространстве).

Но я не понимаю, как одна плоскость или одна линия могли бы разделить три разных облака точек в трехмерном или двумерном пространстве, соответственно - это геометрически невозможно, не так ли?

Я попытался понять соответствующий раздел в статье в Википедии , но уже с треском провалился в предложении «Здесь вход x и выход y взяты из произвольных наборов». Может ли кто-нибудь объяснить мне мультиклассовый персептрон и как он соотносится с идеей гиперплоскости, или, может быть, указать мне на не столь математическое объяснение?

— wnstnsmth
источник

8

Предположим, у нас есть данные где - входные векторы, а - классификации. $(x_1, y_1), \dots, (x_k,y_k)$ $x_i \in \mathbb{R}^n$ $y_i \in \{\text{red, blue, green} \}$

Мы знаем, как построить классификатор для бинарных результатов, поэтому мы делаем это три раза: группируем результаты вместе, , и . $\{\text{red, blue or green} \}$ $\{\text{blue, red or green} \}$ $\{\text{green, blue or red} \}$

Каждая модель принимает вид функции , назовите их соответственно. Это принимает входной вектор подписанному расстояния от гиперплоскости , ассоциированной с каждой моделью, где положительные расстояние соответствует предсказанию синего , если , красной , если и зеленый , если . В основном, чем больше положительное , тем больше модель думает, что $f: \mathbb{R}^n \to \mathbb{R}$ $f_R, f_B, f_G$ $f_B$ $f_R$ $f_G$ $f_G(x)$ $x$ зеленый, и наоборот. Нам не нужно, чтобы результат был вероятным, нам просто нужно измерить, насколько уверена модель.

Учитывая входное значение , мы классифицируем его в соответствии с , поэтому, если является наибольшим среди мы бы предсказывать зеленый для . $x$ $\text{argmax}_{c} \ f_c(x)$ $f_G(x)$ $\{f_G(x), f_B(x), f_R(x) \}$ $x$

Эта стратегия называется «один против всех», и вы можете прочитать об этом здесь .

— Харри
источник

3

Я не могу понять смысл этой статьи в Вики. Вот альтернативный способ объяснить это.

Перцептрон с одним логистическим выходным узлом является классификационной сетью для 2 классов. Выводит , вероятность быть в одном из классов, а вероятность быть в другом просто . $p$ $1 - p$

Перцептрон с двумя выходными узлами является классификационной сетью для 3 классов. Два узла каждого выхода вероятность нахождения в классе , и вероятность того , чтобы быть в третьем классе . $p_i$ $1 - \sum_{i=(1,2)} p_i$

И так далее; персептрон с выходными узлами является классификатором для классов. Действительно, если скрытого слоя нет, такой персептрон в основном совпадает с моделью многочленной логистической регрессии , так же как простой персептрон - это то же самое, что логистическая регрессия. $m$ $m + 1$

— Хонг Оои
источник

Вы уверены, что на выходе есть реальная вероятность? Во всяком случае, я не знаю, как работает полиномиальная логистическая регрессия, поэтому я должен рассмотреть это. Но разве нет (алгоритмического) способа объяснить, как устроен персептрон с двумя или более выходными узлами? Они как-то связаны друг с другом?

— wnstnsmth