Причина для квадратных изображений в глубоком обучении

Для сверточных нейронных сетей нормальное функционирование сверточных нейронных сетей не требуется. Вероятно, значения были выбраны по прагматическим причинам - таким как компромисс между использованием деталей изображения в сравнении с количеством параметров и требуемым размером обучающего набора.

Кроме того, если исходные данные имеют диапазон различных соотношений сторон, некоторый портрет, некоторый пейзаж, когда целевой объект обычно находится в центре, тогда разумным компромиссом может быть получение квадратного обреза из середины.

Когда вы увеличиваете размер входного изображения, вы также увеличиваете количество шума и дисперсии, с которыми сеть будет иметь дело, чтобы обработать этот вход. Это может означать больше слоев - как сверточных, так и объединенных. Это также может означать, что вам нужно больше обучающих примеров, и, конечно, каждый обучающий пример будет больше. Вместе они увеличивают вычислительные ресурсы, необходимые для завершения обучения. Однако, если вы сможете преодолеть это требование, возможно, вы получите более точную модель для любой задачи, в которой дополнительные пиксели могут иметь значение.

Одно из возможных практических правил в отношении того, хотите ли вы получить более высокое разрешение, заключается в том, что для целей вашей сети эксперт-человек мог бы использовать дополнительное разрешение и лучше выполнять поставленную задачу. Это может иметь место в системах регрессии, где сеть выводит некоторые числовые величины из изображения - например, для распознавания лиц, извлекая биометрические данные, такие как расстояние между чертами лица. Это также может быть желательно для задач обработки изображений, таких как автоматическое маскирование - современные результаты для этих задач могут по-прежнему иметь более низкое разрешение, чем коммерческие изображения, где мы хотели бы применять их на практике.

— Нил Слэйтер
источник