Вывод регуляризованной функции стоимости линейной регрессии на курс Coursera Machine Learning

12

Я взял курс Эндрю Нг «Машинное обучение» через Coursera несколько месяцев назад, не обращая внимания на большую часть математики / дериваций и вместо этого сосредоточившись на практической реализации. С тех пор я начал возвращаться к изучению основополагающей теории и пересмотрел некоторые лекции профессора Нга. Я читал его лекцию «Регулярная линейная регрессия» и увидел, что он дал следующую функцию стоимости:

J (θ) = \frac{1}{2 m} [\sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2} + λ \sum_{j = 1}^{n} θ_{j}^{2}]

$J(\theta) = \frac{1}{2m}[\sum_{i=1}^m(h_\theta (x^{(i)}) - y^{(i)})^2 + \lambda\sum_{j=1}^n\theta^2_j]$

Затем он дает следующий градиент для этой функции стоимости:

\frac{\partial}{\partial θ_{j}} J (θ) = \frac{1}{m} [\sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)} - λ θ_{j}]

$\frac{\partial}{\partial \theta_j}J(\theta) = \frac{1}{m}[\sum_{i=1}^m(h_\theta (x^{(i)}) - y^{(i)})x^{(i)}_j - \lambda\theta_j]$

Я немного озадачен тем, как он переходит от одного к другому. Когда я попытался сделать свой собственный вывод, у меня был следующий результат:

\frac{\partial}{\partial θ_{j}} J (θ) = \frac{1}{m} [\sum_{i = 1}^{m} (h_{θ} (x^{(i)}) + y^{(i)}) x_{j}^{(i)} + λ θ_{j}]

$\frac{\partial}{\partial \theta_j}J(\theta) = \frac{1}{m}[\sum_{i=1}^m(h_\theta (x^{(i)}) + y^{(i)})x^{(i)}_j + \lambda\theta_j]$

Разница заключается в том, что знак «плюс» между исходной функцией стоимости и параметром регуляризации в формуле профессора Нга превращается в знак «минус» в его функции градиента, тогда как в моем результате этого не происходит.

Интуитивно я понимаю, почему это отрицательно: мы уменьшаем тэта-параметр на величину градиента, и мы хотим, чтобы параметр регуляризации уменьшил величину изменения параметра, чтобы избежать переобучения. Я просто немного застрял в исчислении, которое поддерживает эту интуицию.

К вашему сведению, вы можете найти колоду здесь , на слайдах 15 и 16.

regression self-study

— Веллингтон
источник

1

В вашем результате у вас есть « + » перед y ^ (i) - это опечатка?

— Стив С

12

$J(\theta) = \frac{1}{2m}[\sum_{i=1}^m(h_\theta (x^{(i)}) - y^{(i)})^2 + \lambda\sum_{j=1}^n\theta^2_j]$

Сейчас же

$\frac{\partial}{\partial \theta_j}(h_\theta (x^{(i)}) - y^{(i)})^2=2[(h_\theta (x^{(i)}) - y^{(i)})\frac{\partial}{\partial \theta_j}\{h_\theta(x^{(i)})\}]$

$\frac{\partial}{\partial \theta_j}(h_\theta(x^{(i)})=[x^{(i)}]_j$

$\frac{\partial}{\partial \theta_j}\lambda\sum_{j=1}^n\theta^2=2\lambda\theta_j$

Так что для линейного случая

$\frac{\partial}{\partial \theta_j}J(\theta) = \frac{1}{m}[\sum_{i=1}^m(h_\theta (x^{(i)}) - y^{(i)})x^{(i)}_j + \lambda\theta_j]$

Похоже, что и у вас с Эндрю могут быть опечатки. Ну, по крайней мере двое из нас, кажется,

— Glen_b - Восстановить Монику
источник

это подтверждено, просто опечатка на записке Эндрю, это должен быть знак +. И Проф правильно все объясняет правильно, включая интуицию θ (1-α (λ / m)), означающую каждый раз, когда это сокращение θ, то минус обычная часть до введения регуляризации.

— Gob00st

4

На самом деле, если вы проверяете конспект лекций сразу после видео, он показывает формулу правильно. Выложенные здесь слайды показывают точный слайд видео.

— Piyush
источник

coursera.org/learn/machine-learning/supplement/pKAsc/… здесь ссылка на заметки сразу после видео, показывающего правильную формулу.

— Gob00st

1

На самом деле, я думаю, что это просто опечатка.

$-\alpha$ $-\lambda\theta$ $-\alpha$

Есть смысл?

— Стив С
источник