Теперь вопрос заключается в том, как обрабатывать изображения такого большого размера, когда нет никаких преимуществ понижающей дискретизации.
Я предполагаю, что под понижающей дискретизацией вы подразумеваете уменьшение входных данных перед передачей их в CNN. Сверточный слой позволяет уменьшить изображение в сети, выбирая большой шаг, что позволит сэкономить ресурсы для следующих слоев. Фактически, это то, что нужно сделать, иначе ваша модель не поместится в GPU.
1) Существуют ли методы для обработки таких больших изображений, которые нужно обучать?
Обычно исследования масштабируют изображения до разумного размера. Но если это не вариант для вас, вам нужно ограничить свой CNN. В дополнение к понижающей дискретизации в ранних слоях, я бы порекомендовал вам избавиться от слоя FC (который обычно принимает большинство параметров) в пользу сверточного слоя . Также вам придется передавать данные в каждую эпоху, потому что они не будут вписываться в ваш графический процессор.
Обратите внимание, что ничто из этого не предотвратит большую вычислительную нагрузку на ранних уровнях, именно потому, что входные данные очень велики: свертка - дорогостоящая операция, и первые слои будут выполнять много из них при каждом прямом и обратном проходе. Короче, обучение будет медленным.
2) Какой размер партии целесообразно использовать?
Вот еще одна проблема. 2400x2400x3x4
Одно изображение занимает (3 канала и 4 байта на пиксель), что составляет ~ 70 МБ, поэтому вы вряд ли сможете позволить себе даже размер пакета 10. Более реалистично было бы 5. Обратите внимание, что большая часть памяти будет занята параметрами CNN. Я думаю, что в этом случае имеет смысл уменьшить размер, используя 16-битные значения, а не 32-битные - таким образом вы сможете удвоить количество пакетов.
3) Есть ли какие-либо меры предосторожности, которые я могу предпринять, или какое-либо увеличение или уменьшение аппаратных ресурсов?
Ваше узкое место - память GPU. Если вы можете позволить себе другой графический процессор, получите его и разделите сеть между ними. Все остальное незначительно по сравнению с памятью GPU.