Основные предполагаемые преимущества:
(1) Не нужно вручную разрабатывать функции для нелинейных задач обучения (экономия времени и масштабируемость на будущее, так как ручная инженерия рассматривается некоторыми как краткосрочная помощь)
(2) Изученные функции иногда лучше, чем лучшие функции, созданные вручную, и могут быть настолько сложными (компьютерное зрение, например, функции лица), что для их разработки потребуется слишком много человеческого времени.
(3) Может использовать немеченые данные для предварительного обучения сети. Предположим, у нас есть 1000000 немаркированных изображений и 1000 помеченных изображений. Теперь мы можем существенно улучшить алгоритм обучения под наблюдением, предварительно обучив 1000000 немеченых изображений с глубоким обучением. Кроме того, в некоторых областях у нас так много немеченых данных, но помеченные данные найти сложно. Алгоритм, который может использовать эти непомеченные данные для улучшения классификации, является ценным.
(4) Эмпирически, разбил много тестов, которые видели только постепенные улучшения до внедрения методов глубокого обучения.
(5) Один и тот же алгоритм работает в нескольких областях с необработанными (возможно, с незначительной предварительной обработкой) входными данными.
(6) Продолжает улучшаться по мере того, как в сеть поступает больше данных (при условии стационарного распределения и т. Д.).