Они действительно эквивалентны, так как вы всегда можете изменить масштаб (см. Также комментарий @ whuber). С теоретической точки зрения это вопрос удобства, но, насколько я знаю, в этом нет необходимости. С вычислительной точки зрения, я на самом деле считаю довольно раздражающим, поэтому я обычно использую первую формулировку, если я разрабатываю алгоритм, который использует регуляризацию.λ1/(2n)
Небольшая предыстория: Когда я впервые начал изучать штрафные методы, меня раздражало носить повсюду в моей работе, поэтому я предпочел игнорировать его - это даже упростило некоторые мои вычисления. В то время моя работа была в основном вычислительной. Совсем недавно я занимался теоретической работой, и я нашел обязательным (даже против, скажем, ).1/(2n)1/(2n)1/n
Более подробно: Когда вы пытаетесь проанализировать поведение Лассо как функцию размера выборки , вам часто приходится иметь дело с суммами случайных величин iid, и на практике, как правило, удобнее анализировать такие суммы после нормализации по - -придумайте закон больших чисел / центральную предельную теорему (или если вы хотите получить фантазию, концентрацию меры и эмпирическую теорию процессов). Если у вас нет термина перед потерей, в конечном итоге вы в конечном итоге что-то пересчитаете в конце анализа, поэтому обычно лучше начинать с него. удобна тем , что она отменяет некоторые раздражающие факторыnn1/n1/22 в анализе (например, когда вы берете производную от квадрата убыточного члена).
Другой способ думать об этом состоит в том, что, занимаясь теорией, мы обычно интересуемся поведением решений при увеличении то есть не является некоторой фиксированной величиной. На практике, когда мы запускаем Лассо для некоторого фиксированного набора данных, действительно является фиксированным с точки зрения алгоритма / вычислений. Так что наличие дополнительного нормализующего фактора не так уж и полезно.nnn
Это может показаться раздражающим вопросом удобства, но потратив достаточно времени на манипулирование такого рода неравенствами, я научился любить .1/(2n)