Я задавался вопросом о том же самом, когда брал этот курс, и закончил тем, что исследовал это немного. Я дам короткий ответ здесь, но вы можете прочитать более подробный обзор в блоге, который я написал об этом .
Я полагаю, что, по крайней мере, одна из причин этих коэффициентов масштабирования заключается в том, что регуляризация L², вероятно, вошла в область глубокого обучения благодаря внедрению связанной, но не идентичной концепции снижения веса.
Затем существует коэффициент 0,5, чтобы получить хороший коэффициент только для λ для снижения веса в градиенте, и масштабирование по m ... ну, есть по крайней мере 5 различных мотиваций, которые я нашел или придумал:
- Побочный эффект пакетного градиентного спуска: когда вместо всей формации обучения формализована одна итерация градиентного спуска, в результате чего алгоритм, иногда называемый пакетным градиентным спуском, вводится с коэффициентом масштабирования 1 / м, чтобы сделать функцию стоимости сопоставимой для разных наборов данных, автоматически применяется к сроку снижения веса.
- Измените вес одного примера: посмотрите интересную интуицию Греза .
- Репрезентативность обучающего набора: имеет смысл уменьшить регуляризацию по мере роста размера обучающего набора, так как по статистике его репрезентативность в общем распределении также возрастает. По сути, чем больше у нас данных, тем меньше требуется регуляризация.
- Обеспечение сопоставимости λ: Будем надеяться, что уменьшая необходимость изменения λ при изменении m, это масштабирование сделает само сопоставление λ по наборам данных разных размеров. Это делает λ более репрезентативной оценкой фактической степени регуляризации, требуемой конкретной моделью для конкретной задачи обучения.
- Эмпирическая ценность: отличный ноутбук от компании
grez
демонстрирует, что это повышает производительность на практике.