Для примера, давайте предположим, что мы строим оценку возраста, основанную на изображении человека. Ниже у нас два человека в костюмах, но первый явно моложе второго.
(источник: tinytux.com )
Есть множество особенностей, которые подразумевают это, например, структура лица. Однако наиболее характерной особенностью является соотношение размера головы к размеру тела :
(источник: wikimedia.org )
Итак, предположим, что мы обучили регрессию CNN, чтобы предсказать возраст человека. В большинстве предсказателей возраста, которые я пробовал, приведенное выше изображение ребенка, кажется, обманывает прогнозы, заставляя думать, что он старше, из-за костюма и, вероятно, потому, что они полагаются в первую очередь на лицо:
Мне интересно, насколько хорошо ванильная архитектура CNN может определять соотношение головы и туловища?
По сравнению с региональным RCNN, который может получить ограничивающие рамки на теле и голове, будет ли ванильный CNN всегда работать хуже?
Непосредственно перед глобальным выравниванием в ванильном CNN (то есть сразу после всех извилин) каждый выход имеет соответствующее восприимчивое поле, которое должно иметь ощущение масштаба. Я знаю, что более быстрый RCNN использует это, делая предложения ограничивающего прямоугольника именно на этом этапе, так что все предыдущие сверточные фильтры автоматически обучаются всем масштабам.
Итак, я думаю, что ванильный CNN должен быть в состоянии вывести соотношение размера головы и туловища? Это правильно? Если да, то единственное преимущество использования более быстрой структуры RCNN для использования факта, который, возможно, был предварительно обучен обнаружению людей?