Причина, по которой онлайн градиент полезен для больших масштабов приложений. В любом случае, теперь есть библиотеки, которые реализуют это, так что вам не нужно его программировать. Это хороший способ узнать, как все работает.
Крупномасштабное машинное обучение впервые рассматривалось как инженерная проблема. Например, чтобы использовать больший обучающий набор, мы можем использовать параллельный компьютер для запуска известного алгоритма машинного обучения или адаптировать более продвинутые численные методы для оптимизации известной целевой функции машинного обучения. Такие подходы основаны на привлекательном предположении, что можно отделить статистические аспекты от вычислительных аспектов проблемы машинного обучения.
Эта работа показывает, что это предположение неверно, и что отказ от него приводит к значительно более эффективным алгоритмам обучения. Новая теоретическая основа учитывает влияние приближенной оптимизации на алгоритмы обучения.
Анализ показывает четкие компромиссы в случае небольших и крупных проблем обучения. Мелкомасштабные проблемы обучения являются предметом обычного компромиссного подхода к оценке. Крупномасштабные проблемы обучения являются предметом качественно другого компромисса, включающего вычислительную сложность лежащих в основе алгоритмов оптимизации нетривиальными способами. Например, алгоритмы стохастического градиентного спуска (SGD), по-видимому, являются посредственными алгоритмами оптимизации и, тем не менее, показывают, что они очень хорошо справляются с крупномасштабными задачами обучения.