В статье под названием « Глубокое обучение и принцип узкого места в информации» авторы утверждают в разделе II А) следующее:
Одиночные нейроны классифицируют только линейно разделимые входы, поскольку они могут реализовывать только гиперплоскости в своем входном пространстве . Гиперплоскости могут оптимально классифицировать данные, когда входные данные условно независимы.
Чтобы показать это, они выводят следующее. Используя теорему Байеса, они получают:
(1)
Где - это входные данные, - это класс, а - предсказанный класс (я полагаю, не определен). Продолжая, они заявляют, что:
(2)
Где - входное измерение, а n - я не уверен (опять же, оба не определены). Учитывая сигмоидальный нейрон с сигмоидальной активационной функцией σ ( u ) = 1 и преактивацииu, после вставки (2) в (1) получаем оптимальные весовые значенияwj=logp(xj|y) иb=logp(y) , когда входные значенияhj=np(xj).
Теперь к моим вопросам. Я понимаю, как вставка (2) в (1) приводит к оптимальному весу и входным значениям . Однако я не понимаю следующее:
- Как (1) получается с использованием теоремы Байеса?
- Как получается (2)? Что такое ? В чем смысл этого? Я предполагаю, что это как-то связано с условной независимостью
- Даже если размеры x условно независимы, как можно утверждать, что он равен его масштабированной вероятности? (т.е. как вы можете заявить, что ?)
РЕДАКТИРОВАТЬ: переменная является двоичной переменной класса. Исходя из этого, я предполагаю, что у ′ является «другим» классом. Это решит вопрос 1. Согласны ли вы?