1) Большинство нейронных сетей не могут выполнять умножения; они могут рассчитывать только суммы (которые затем индивидуально вводятся через функцию активации ). Вместо этого они должны оценить эти умножения, если они важны, что требует большого количества нейронов, особенно если факторы могут охватывать большие диапазоны.
Если окажется, что площадь дома на самом деле является важной особенностью, вы поможете сети, если предоставите ей площадь, потому что тогда она может использовать нейроны, которые потребовались бы для оценки умножения ширины и длины. делать другие вещи.
Следовательно, включение полиномиальных функций может в некоторых случаях быть полезным для сети, но в других случаях не оказывает существенного влияния. Кроме того, полиномиальные функции - это только один тип производных функций, которые могут быть полезны для сети. Другим типом производной функции, которая может оказаться полезной, является, например, логарифмы входных переменных (считаются положительными), которые сеть также должна оценить, чтобы получить.
Идея состояла бы в том, чтобы позволить сети выполнять больше операций между числами, чем только сложения, чтобы она могла эффективно вычислять такие вещи, как полиномиальные особенности, но неясно, как это будет работать. Одна архитектура, которая выглядит так, как будто она делает что-то похожее, - это сеть суммарных продуктов .
2) За исключением вычислительных затрат, о которых упоминал Джон, увеличение количества параметров в модели, что неизбежно случается, когда вы вводите больше входных данных, также увеличивает риск перегрузки сети , особенно если у вас мало обучающих данных.
Тем не менее, это может быть сделано гораздо меньше проблем, если использовать хороший метод регуляризации. (По-видимому, для этого очень хорошо работает Dropout) Теоретически, при достаточно хорошем методе регуляризации, переоснащение вообще не должно быть проблемой. Как указывает Хинтон, человек имеет порядка 10 ^ 14 синапсов в мозге (что соответствует связям в нейронной сети), но живет только порядка 10 ^ 9 секунд, но мы все еще можем обобщать довольно хорошо. Совершенно очевидно, что наличие множества параметров, которые можно настроить, с правильным алгоритмом должно быть только преимуществом.