Идея применения фильтров для идентификации чего-либо, например, для идентификации ребер, является довольно крутой идеей
Например, вы можете получить изображение 7. С некоторыми фильтрами вы можете получить преобразованные изображения, которые подчеркивают различные характеристики исходного изображения. Оригинал 7:
может восприниматься сетью как:
Обратите внимание на то, как каждое изображение выделяло разные края оригинала 7.
Это все замечательно, но, скажем, следующий уровень в вашей сети - это уровень Max Pooling.
Мой вопрос, как правило, не кажется ли это немного излишним? Мы просто были очень осторожны и обдумывали определение краев с помощью фильтров - теперь мы больше не заботимся ни о чем из этого, так как мы уничтожили значения пикселей! Пожалуйста, поправьте меня, если я ошибаюсь, но мы перешли с 25 на 25 на 2 на 2! Почему бы тогда не перейти прямо к Max Pooling, разве мы не закончим тем же самым?
Как расширение моего вопроса, я не могу не задаться вопросом, что произойдет, если, по совпадению, каждый из 4 квадратов просто получит пиксель с одинаковым максимальным значением. Конечно, это не редкий случай, верно? Внезапно все ваши тренировочные образы выглядят одинаково.
The pooling operation provides a form of translation invariance
?