Я пытаюсь понять оптимизацию градиентного спуска в алгоритмах ML (машинного обучения). Я понимаю , что есть стоимость функция, где цель состоит в том, чтобы свести к минимуму ошибки у - у . В случае , когда вес ш 1 , ж 2 оптимизируются , чтобы дать минимальную ошибку, и используются в частных производных, она изменяется как и на каждом шаге или это сочетание (например, в течение нескольких итераций только является изменилось, и когда больше не уменьшает ошибку, производная начинается с)? Приложение может быть моделью линейной регрессии, моделью логистической регрессии или алгоритмами повышения.
w1
, уменьшение вw2
зависимости от направления от частной производной для достижения локальных минимумов, и просто для подтверждения того, что алгоритм не всегда будет давать глобальные минимумы?