Как определить оптимальную скорость обучения для градиентного спуска? Я думаю, что я мог бы автоматически настроить его, если функция стоимости возвращает большее значение, чем в предыдущей итерации (алгоритм не будет сходиться), но я не совсем уверен, какое новое значение он должен принимать.