Когда мы можем дифференцировать функцию стоимости и найти параметры, решая уравнения, полученные посредством частичного дифференцирования по каждому параметру, и выяснить, где функция стоимости минимальна. Также я думаю, что можно найти несколько мест, где производные равны нулю, поэтому мы можем проверить все такие места и найти глобальные минимумы
почему вместо этого выполняется градиентный спуск?