Полностью связанные (по крайней мере слой за слоем с более чем 2 скрытыми слоями) сети Backprop являются универсальными учащимися. К сожалению, они часто не спешат учиться и имеют тенденцию переусердствовать или имеют неудобные обобщения.
Из дурачения с этими сетями я заметил, что обрезка некоторых ребер (так что их вес равен нулю и их невозможно изменить) приводит к тому, что сети учатся быстрее и лучше обобщаются. Есть причина для этого? Это только из-за уменьшения размерности пространства поиска весов, или есть более тонкая причина?
Кроме того, является ли лучшее обобщение артефактом «естественных» проблем, на которые я смотрю?