Джеффри Хинтон исследовал то, что он называет «теорией капсул» в нейронных сетях. Что это такое и как это работает?
Джеффри Хинтон исследовал то, что он называет «теорией капсул» в нейронных сетях. Что это такое и как это работает?
Ответы:
Похоже, он еще не опубликован; лучшими из доступных в Интернете являются эти слайды для этого доклада . (Несколько человек ссылаются на более раннюю беседу по этой ссылке , но, к сожалению, она не работает во время написания этого ответа.)
У меня сложилось впечатление, что это попытка формализовать и абстрагировать создание подсетей внутри нейронной сети. То есть, если вы посмотрите на стандартную нейронную сеть, слои полностью связаны (то есть, каждый нейрон в слое 1 имеет доступ к каждому нейрону в слое 0, и сам по себе доступ к каждому нейрону в слое 2). Но это явно не полезно; вместо этого можно было бы иметь, скажем, n параллельных стопок слоев («капсул»), каждая из которых специализируется на какой-то отдельной задаче (для которой может потребоваться более одного слоя для успешного завершения).
Если я правильно представляю результаты, эта более сложная топология графа кажется чем-то, что может легко повысить как эффективность, так и интерпретируемость получаемой сети.
В дополнение к предыдущему ответу: есть статья по этому вопросу, которая в основном посвящена изучению капсул низкого уровня по необработанным данным, но объясняет концепцию капсулы Хинтона в ее вводном разделе: http://www.cs.toronto.edu/~ Fritz / absps / transauto6.pdf
Стоит также отметить, что ссылка на доклад MIT в ответе выше, кажется, снова работает.
Согласно Хинтону, «капсула» представляет собой подмножество нейронов в слое, который выводит как «параметр создания экземпляра», указывающий, присутствует ли объект в ограниченной области, так и вектор «параметров позы», определяющих положение объекта относительно каноническая версия.
Параметры, выводимые капсулами низкого уровня, преобразуются в прогнозы для позы объектов, представленных капсулами высокого уровня, которые активируются, если прогнозы согласуются, и выводят свои собственные параметры (параметры позы более высокого уровня являются средними значениями полученных прогнозов). ).
Хинтон размышляет, что это обнаружение совпадений с высокой размерностью - то, для чего нужна организация мини-колонок в мозге. Похоже, его главная цель - заменить максимальный пул, используемый в сверточных сетях, в которых более глубокие слои теряют информацию о позе.
Капсульные сети пытаются имитировать наблюдения Хинтона за человеческим мозгом на машине. Мотивация проистекает из того факта, что нейронные сети нуждаются в лучшем моделировании пространственных отношений частей. Вместо того, чтобы моделировать сосуществование, игнорируя относительное расположение, капсульные сети пытаются смоделировать глобальные относительные преобразования различных частей по иерархии. Это компромисс между эквивариантностью и инвариантностью, как объяснено выше другими.
Эти сети, следовательно, включают в себя понимание точки зрения / ориентации и по-разному реагируют на различные ориентации. Это свойство делает их более различительными, в то же время потенциально предоставляя возможность выполнять оценку позы, поскольку функции скрытого пространства содержат интерпретируемые, специфичные для детали детали.
Все это достигается путем включения в слой вложенного слоя, называемого капсулами, вместо объединения еще одного слоя в сети. Эти капсулы могут обеспечивать выходной вектор вместо скалярного на узел.
Важнейшим вкладом статьи является динамическая маршрутизация, которая заменяет стандартное максимальное объединение умной стратегией. Этот алгоритм применяет кластеризацию среднего сдвига к выходным данным капсулы, чтобы гарантировать, что выходные данные отправляются только соответствующему родительскому элементу на уровне выше.
Авторы также связывают вклады с потерей запаса и потерей на реконструкцию, которые одновременно помогают лучше изучить задачу и демонстрируют современные результаты на MNIST.
Последняя статья называется « Динамическая маршрутизация между капсулами» и доступна на сайте: https://arxiv.org/pdf/1710.09829.pdf .
На основе их статьи Динамическая маршрутизация между капсулами
Капсула - это группа нейронов, вектор активности которых представляет параметры реализации объекта определенного типа, такого как объект или часть объекта. Мы используем длину вектора активности для представления вероятности существования сущности и ее ориентации для представления параметров реализации. Активные капсулы на одном уровне с помощью матриц преобразования предсказывают параметры реализации капсул более высокого уровня. Когда несколько предсказаний согласуются, капсула более высокого уровня становится активной. Мы показываем, что многослойная капсульная система с отличительной подготовкой обеспечивает самые современные характеристики MNIST и значительно лучше, чем сверточная сеть, для распознавания сильно перекрывающихся цифр. Для достижения этих результатов мы используем итеративный механизм маршрутизации по соглашению: Капсула более низкого уровня предпочитает отправлять свою продукцию в капсулы более высокого уровня, векторы активности которых имеют большой скалярный продукт с предсказанием, исходящим из капсулы более низкого уровня. Окончательный вариант документа находится на пересмотре, чтобы включить комментарии рецензентов.
Одним из основных преимуществ сверточных нейронных сетей является их неизменность для перевода. Однако эта инвариантность имеет свою цену, то есть она не учитывает, как различные функции связаны друг с другом. Например, если у нас есть изображение лица, у CNN будут трудности с различением взаимосвязи между особенностями рта и особенностями носа. Максимальное количество пулов - основная причина этого эффекта. Потому что, когда мы используем максимальное количество слоев пула, мы теряем точное местоположение рта и шума, и мы не можем сказать, как они связаны друг с другом.
Капсулы пытаются сохранить преимущество CNN и исправить этот недостаток двумя способами;
Когда капсула работает должным образом, вероятность присутствия визуального объекта является локально инвариантной - она не изменяется, когда объект перемещается по множеству возможных появлений в пределах ограниченной области, охватываемой капсулой.
Другими словами, капсула учитывает наличие специфической особенности, которую мы ищем, как рот или нос. Это свойство гарантирует, что капсулы являются трансляционно-инвариантными такими же, как и CNN.