В чем разница между рецептивным полем и картой объектов?

10

В CNN восприимчивое поле - это часть изображения, используемая для вычисления выходных данных фильтра. Но выход одного фильтра (который также называется «картой объектов») является входом следующего фильтра.

convolutional-neural-networks terminology comparison

— Моника Хедднек
источник

4

Рецептивное поле

Поле восприятия в контексте механики CNN - это дискретный диапазон входных данных, выбранных в качестве входных данных для ядра свертки определенного слоя. Диапазон восприимчивого поля является функцией как положения, так и размера. Диапазон относится к одному или нескольким измерениям. ¹

горизонтальный
вертикальный
Индекс кадра
Приращение времени
Индекс пиксельного слоя
Другие размеры

Положение рецептивного поля систематически меняется, чтобы выбрать подмножество диапазона индексов в каждом измерении, чтобы охватить весь диапазон. ² Размер соответствует входу ядра, работающего на нем, и поэтому обычно является постоянным. ³

Это три определяющие характеристики рецептивных полей в CNN.

Определяет диапазон индексов, выбранных для ввода в ядро свертки с точки зрения позиции и размера индекса
Размер диапазона индекса в каждом измерении (обычно нечетный и меньше 20) соответствует характеристикам входного размера ядра
Положение диапазона индекса в каждом измерении систематически варьируется для охвата всего диапазона информации во всех измерениях, обычно варьируется с фиксированными приращениями

Обратите внимание, что термин « Receptive Field» происходит от границ представления сигнала поля зрения, захваченного в биологических системах. В этом контексте термин « воспринимающее поле» относится к геометрическому диапазону, полученному с помощью устройств визуализации или органов. Точно так же, как глаз может сканировать ландшафт, выбор позиции в общем поле информации происходит в дизайне CNN.

Общность между биологическим и искусственным заключается в использовании концентрации внимания на всем сенсорном пространстве.

Карта объектов как представление извлеченных объектов

Термин Карта объектов в этом контексте - это карта, представляющая объекты, извлеченные посредством одного или нескольких слоев свертки. Этот термин может быть неточно использован для промежуточного вывода ядер, но обратите внимание, что вывод промежуточных уровней до объединенных уровней еще не представляет функции напрямую. На этих этапах извлечение является неполным, поэтому нет прямой связи между значениями и функциями.

Термин карта объектов наиболее точно используется при описании выходных данных последнего пула в разделе слоев CNN. Этот раздел может лежать в последовательности разделов CNN или может быть компонентами в более крупной архитектуре системы.

Примеры сопоставлений функций включают их.

Ребра
Появление или исчезновение (временная область)
Элементы объекта
Траектория движения
Увеличить
Объекты
действия

В этом использовании этого термина отображение характеристик связано с размерами информации, позиционным пространством, в котором было применено ядро.

Карта признаков как представление преобразования в дискретном гильбертовом пространстве

Когда термин Карта объектов применяется к отображению, выполненному одним или несколькими слоями CNN, объекты на выходе отображаются на вход, а не на позиции. В этом контексте отображение является тензорным преобразованием в гильбертовом пространстве. Обратите внимание, что карта - это не представление сигнала, а представление преобразования, ядра и его изученных параметров в их текущем состоянии.

Чтобы устранить неоднозначность этого контекста из предыдущего, может быть полезным использовать термин Feature Mapping для обозначения тензорного преобразования, а не вывода такого преобразования.

Перекрытие Условий

Когда выходные данные секции свертки содержат карту объектов и передаются в другой слой или секцию свертки, карта объектов одной секции становится полным пространством, в котором рецептивное поле выбирает подмножество информации, которое должно быть передано в следующее ядро, как вход.

Обратите внимание, что карта признаков представляет собой полный сигнал, представляющий все данные в его разделе сети, где в качестве восприимчивого поля чаще всего используется подмножество полного сигнала, примененного несколько раз, чтобы охватить всю ширину сигнала в нескольких измерениях.

Эти два термина не являются синонимами ни в каком контексте, а просто связаны теорией и практикой.

Сноски

[1] Положение и размер указаны в каждом из $n$ размеры в $\mathbb{I}^n$ , где $n \ge 1$ ,

[2] Выбор диапазонов в каждом измерении может быть выполнен с помощью циклического алгоритма или с помощью аппаратных решений, которые выполняют операции управления окнами с помощью схемы DSP или GPU, возможно, посредством параллельных операций RISC с аппаратным или встроенным программным обеспечением.

[3] Примерные и эпохальные индексы могут быть ограничены аналогичным образом в некоторых проектах CNN, но такие индексы, в обычном смысле этого слова, не считаются частью рецептивных полей. Только размеры в каждом примере. Кроме того, индексы входного потока, такие как идентификатор камеры, обычно не включаются в качестве измерения в поле восприятия.

— Дуглас Дасеко
источник

3

Я надеюсь, что эта иллюстрация поможет вам:

Receptive field (s) : небольшая часть входных данных для создания только одного узла в карте объектов .

Карта (ы) объектов: является сверточным выходным процессом, карта объектов может быть названа как представление объектов входных данных фильтра. Одна карта характеристик состоит из множества выходов фильтра (из разных рецептивных полей) из одного ядра. Количество карт возможностей зависит от количества ядра.

Таким образом, даже карты объектов являются входными данными следующего фильтра, но следующие восприимчивые поля не являются картой объектов. Следующее поле восприятия состоит из небольшого участка узла из разных карт объектов (а не только из одной карты объектов).

А также, как видно из иллюстрации выше, карта объектов имеет двухмерный размер $(46 \times 46)$ то размер рецептивного поля всегда будет трехмерным $(5 \times 5 \times \text{Number Of Feature Maps})$ ,

— Малиоборо
источник