В настоящее время я работаю над внедрением Stochastic Gradient Descent, SGD
для нейронных сетей, использующих обратное распространение, и, хотя я понимаю его назначение, у меня есть несколько вопросов о том, как выбрать значения для скорости обучения.
- Связана ли скорость обучения с формой градиента ошибки, так как он определяет скорость снижения?
- Если да, то как вы используете эту информацию, чтобы сообщить свое решение о стоимости?
- Если это не то, какие ценности я должен выбрать, и как я должен выбрать их?
- Кажется, что вы хотели бы, чтобы маленькие значения избегали перерегулирования, но как выбрать одно из таких значений, чтобы вы не застряли в локальных минимумах или не заняли много времени, чтобы спуститься?
- Имеет ли смысл иметь постоянную скорость обучения, или я должен использовать какую-то метрику для изменения ее значения по мере приближения к минимуму в градиенте?
Вкратце: как выбрать курс обучения для SGD?