Стохастическому градиентному спуску предшествует стохастическая аппроксимация, впервые описанная Роббинсом и Монро в их статье «Метод стохастической аппроксимации» . Кифер и Вулфовиц впоследствии опубликовали свою статью « Стохастическая оценка максимума функции регрессии».что более узнаваемо для людей, знакомых с ML-вариантом стохастической аппроксимации (т.е. стохастическим градиентным спуском), как отметил Марк Стоун в комментариях. В 60-х годах было проведено множество исследований в этом направлении - Дворецкий, Пауэлл, Блум - все опубликованные результаты, которые мы принимаем сегодня как должное. Переход от метода Роббинса и Монро к методу Кифера Вулфовица является относительно небольшим скачком, и это просто переосмысление проблемы, чтобы затем перейти к стохастическому градиентному спуску (для задач регрессии). Вышеупомянутые статьи широко цитируются как предшественники Стохастического градиентного спуска, как упомянуто в этом обзоре Nocedal, Bottou и Curtis , который дает краткую историческую перспективу с точки зрения машинного обучения.
Я полагаю, что Кушнер и Инь в своей книге « Стохастическая аппроксимация и рекурсивные алгоритмы и приложения» предполагают, что это понятие использовалось в теории управления еще в 40-х годах, но я не помню, ссылались ли они на это или это было анекдотично, и у меня нет доступа к их книге, чтобы подтвердить это.
Герберт Роббинс и Саттон Монро . Метод стохастической аппроксимации
. Анналы математической статистики. 22, No. 3. (Sep., 1951), pp. 400-407.
Дж. Кифер и Дж. Вулфовиц Стохастическая оценка максимума регрессионной функции Ann. Математика Statist. Том 23, № 3 (1952), 462-466
Леон Ботту и Фрэнк Э. Кертис и Хорхе Ноцедал Методы оптимизации для крупномасштабного машинного обучения , Технический отчет, arXiv: 1606.04838