Я пытаюсь понять оптимизацию градиентного спуска в алгоритмах ML (машинного обучения). Я понимаю , что есть стоимость функция, где цель состоит в том, чтобы свести к минимуму ошибки у - у . В случае , когда вес ш 1 , ж 2 оптимизируются , чтобы дать минимальную ошибку, и используются в частных производных, она изменяется как и на каждом шаге или это сочетание (например, в течение нескольких итераций только является изменилось, и когда больше не уменьшает ошибку, производная начинается с)? Приложение может быть моделью линейной регрессии, моделью логистической регрессии или алгоритмами повышения.
w1, уменьшение вw2зависимости от направления от частной производной для достижения локальных минимумов, и просто для подтверждения того, что алгоритм не всегда будет давать глобальные минимумы?