Вот ветка обсуждения (с июля 2013 г.), указывающая, что с этим могут быть некоторые проблемы, но это можно сделать.
Чаглар Гюльчере (из лаборатории Йошуа Бенжио) сказал, что он успешно использовал следующую технику в вопросах знания: Важность предварительной информации для оптимизации :
обучите первый DAE как обычно, но с выпрямителями в скрытом слое:
a1(x) = W1 x + b1
h1 = f1(x) = rectifier(a1(x))
g1(h1) = {sigmoid}(V1 h1 + c1)
минимизируйте кросс-энтропию или потери MSE, сравнивая g1 (f1 (коррупционный (x))) и x. сигмоид является необязательным в зависимости от данных.
обучите 2-й DAE с добавленным шумом перед выпрямителем f1 и используйте единицы восстановления softplus с потерей MSE:
h2 = f2(h1) = rectifier(W2 h1 + b2)
g2(h2) = softplus(V2 h2 + c2)
минимизируйте∥f1(x)−g2(f2(rectifier(corrupt(a1(x)))))∥2+λ1∥W∥1+λ2∥W∥2
Xavier Glorot, а также из лаборатории Bengio, сказал он сделал то же самое для замены , кроме с штрафа «на значения активации» (предположительно ?) В обоих доменов адаптации для Крупномасштабная классификация настроений: подход глубокого обучения (ICML 2011) и в нейронных сетях глубокого разреженного выпрямителя (AISTATS 2011).∥W∥1L1∥g2(…)∥1