Вот сделка:
Технически вы написали истинные предложения (обе модели могут аппроксимировать любую «не слишком сумасшедшую» функцию при достаточном количестве параметров), но эти предложения никуда вас не приведут!
Почему это? Что ж, взглянем поближе на теорию универсального приближения или любое другое формальное доказательство того, что нейронная сеть может вычислить любой f (x), если есть достаточно Нейронов.
Все те доказательства, которые я видел, используют только один скрытый слой.
Взгляните сюда http://neuralnetworksanddeeplearning.com/chap5.html для некоторой интуиции. Есть работы, показывающие, что в некотором смысле количество нейронов должно расти в геометрической прогрессии, если вы используете только один слой.
Итак, хотя в теории вы правы, на практике у вас нет бесконечного количества памяти, поэтому вы не хотите тренировать сеть из 2 000 нейронов, не так ли? Даже если у вас было бесконечное количество памяти, эта сеть наверняка перегрузится.
На мой взгляд, наиболее важным моментом ОД является практический момент! Давайте немного подробнее об этом. Реальная большая проблема здесь не только в том, как многочлены увеличиваются / уменьшаются очень быстро вне тренировочного набора. Не за что. В качестве быстрого примера, пиксель любого изображения находится в очень специфическом диапазоне ([0,255] для каждого цвета RGB), поэтому вы можете быть уверены, что любой новый образец будет в пределах диапазона значений вашего обучающего набора. Нет. Дело в том, что это сравнение бесполезно для начала (!).
Я предлагаю вам немного поэкспериментировать с MNIST и попытаться увидеть реальные результаты, которые вы можете получить, используя всего один слой.
Практические сети используют более одного скрытого слоя, иногда десятки (ну, Resnet еще больше ...) слоев. По причине. Эта причина не доказана, и в целом выбор архитектуры для нейронной сети является горячей областью исследований. Другими словами, хотя нам все еще нужно знать больше, обе модели, которые вы сравнили (линейная регрессия и NN только с одним скрытым слоем), для многих наборов данных вообще бесполезны!
Кстати, в случае, если вы попадете в ML, есть еще одна бесполезная теорема, которая на самом деле является текущей «областью исследований» - PAC (вероятно, приблизительно правильная) / VC-измерение. Я остановлюсь на этом в качестве бонуса:
Если универсальная аппроксимация в основном утверждает, что при бесконечном количестве нейронов мы можем аппроксимировать любую функцию (большое спасибо?), То, что PAC говорит в практических терминах, учитывая (практически!) Бесконечное количество помеченных примеров, которые мы можем подобрать как можно ближе хочу лучшую гипотезу в нашей модели. Было очень весело, когда я вычислил фактическое количество примеров, необходимых для того, чтобы практическая сеть находилась в пределах некоторой практической желаемой частоты ошибок с некоторой вероятностью вероятности :) Это было больше, чем число электронов во вселенной. PS, чтобы повысить его также предполагает, что образцы являются IID (это никогда не бывает правдой!).