Поэтому я пытаюсь провести предварительную подготовку на изображениях людей, используя сверточные сети. Я прочитал документы ( Paper1 и Paper2 ) и эту ссылку на переполнение стека , но я не уверен, что понимаю структуру сетей (она не очень хорошо определена в статьях).
Вопросов:
Я могу сделать так, чтобы за моим входом следовал слой шума, за которым следовал слой конвива, а затем слой объединения - там после этого - нужно ли удалять пул, прежде чем дать свой вывод (который является тем же самым моим входным изображением)?
Скажем, у меня есть несколько (135,240) изображений. Если я использую 32, (12,21) ядра с последующим (2,2) пулированием, я получу 32 (62, 110) функциональных карты. Теперь я должен удалить из пула 32 (124, 220) карты объектов и затем сгладить их? прежде чем дать мой (135,240) выходной слой?
Если у меня есть несколько таких слоев конвул-пула, должен ли я тренировать их один за другим - как в пакетных автоэнкодерах? Или - я могу иметь что-то вроде input-conv-pool-conv-pool-conv-pool-output (выходные данные совпадают с input)? В таком случае, как предполагается управлять пулированием, удалением? Должен ли я де-пул только в последнем слое пула перед выводом? И снова - каким должен быть фактор изменения размера этого объединения? Является ли намерение вернуть карты объектов обратно в форму ввода?
Должен ли я вводить слои шума после каждого слоя conv-pool-depool?
И затем, когда выполняется точная настройка, я должен просто удалить слои из пула и оставить остальные. Или я должен удалить как слои шума, так и слои удаления пула
Может ли кто-нибудь указать мне на URL / документ, в котором подробно описана архитектура такого сверточного сверточного автоматического кодера, чтобы выполнять предварительное обучение на изображениях?