Приближение универсальной функции

Из теоремы универсального приближения известно, что нейронная сеть с хотя бы одним скрытым слоем и произвольной функцией активации может аппроксимировать любую непрерывную функцию.

Какие есть еще модели, которые также являются универсальными аппроксиматорами функций?

machine-learning function approximation

— выбирать
источник

Я присоединился к этому сайту, чтобы поднять этот вопрос и некоторые ответы.

— Прасад Рагхавендра

Это широко рассматривается в статистической литературе по теме регрессии. Здесь есть две стандартные ссылки: книга Вассермана «Вся непараметрическая статистика» и «Введение в непараметрическую оценку» Цыбакова. Я кратко расскажу о некоторых стандартных вещах и попытаюсь дать указатели вне статистики (это общая тема, и разные области имеют разные культуры: доказывают разные виды теорем, делают разные предположения).

(Регрессоры ядра, иногда называемые оценщиком Надарая-Ватсона.) Здесь вы записываете функцию в любой точке как взвешенную комбинацию близлежащих значений. Более конкретно, поскольку это в статистической литературе, вы обычно предполагаете, что у вас есть несколько примеров взятых из некоторого дистрибутива, и исправляете некоторое ядро (можете думать об этом как Гаусс, но с нулевым средним является то , что наиболее важно), и писать $((x_i,f(x_i)))_{i=1}^n$ $K$ где(вы более чувствительны к малым расстояниямкаквозрастает). Гарантия состоит в том, что привероятностный критерий искажения (ожидание супра-нормы, высокая вероятность, что угодно) стремится к нулю. (Вряд ли имеет значение, каквыглядит- больше важно, как вы выбираете.)
$\hat{е} (Икс) знак равно \underset{я}{Σ} е ({Икс}_{я}) (\frac{К (с_{N} (Икс - {Икс}_{я}))}{\underset{J}{Σ} К (с_{N} (Икс - {Икс}_{J}))}),$ $\hat f(x) := \sum_i f(x_i) \left(\frac{ K(c_n(x-x_i)) }{ \sum_j K(c_n(x-x_j))}\right),$ $c_n\to\infty$ $n$ $n\to\infty$ $K$ $c_n$
$L^2$ $\hat f$ $f$ , Чтобы получить представление о разнообразии подходов здесь, аккуратная статья Рахими и Рехта "равномерное приближение функций со случайными основаниями". Возможно, я должен сказать, что прадедушка всех этих - расширение Фурье; об этом есть много хороших материалов в книге Маллата о вейвлетах.
(Методы дерева.) Другой способ - рассматривать функцию как дерево; на каждом уровне вы работаете с некоторым разделом домена и возвращаете, например, среднюю точку. (Каждое сокращение дерева также дает раздел.) В пределе, тонкость этого раздела больше не будет дискретизировать функцию, и вы точно восстановили ее. Как лучше выбрать этот раздел - сложная проблема. (Вы можете погуглить это под "деревом регрессии".)
(Полиномиальные методы; см. Также сплайны и другие методы интерполяции.) По теореме Тейлора вы знаете, что вы можете получить произвольно близкие к хорошим функциям функции. Это может показаться очень простым подходом (т. Е. Просто использовать интерполяционный многочлен Лагранжа), но где все становится интересным, это решить, какойуказывает на интерполяцию. Это было тщательно исследовано в контексте численного интегрирования; Вы можете найти удивительную математику по темам «квадратура Кленшоу-Кертиса» и «квадратура Гаусса». Я добавляю это сюда, потому что типы предположений и гарантий здесь так радикально отличаются от тех, которые появляются выше. Мне нравится это поле, но эти методы очень сильно страдают от проклятия измерения, по крайней мере, я думаю, что именно поэтому они менее обсуждаются, чем раньше (если вы делаете числовую интеграцию с Mathematica, я думаю, что это делает квадратуру для одномерных доменов, но методы выборки для многомерных доменов).

Принимая во внимание различные ограничения для вашего класса функций, вы можете создать экземпляр выше, чтобы получить все виды других широко используемых сценариев. Например, с булевозначными функциями thresholding (1.) будет очень похож на оценку ближайшего соседа или SVM с некоторым локальным ядром (гауссовским). Многие из вышеперечисленных вещей страдают от проклятия измерения (границы показывают экспоненциальную зависимость от измерения). В машинном обучении вы можете обойти это либо путем явного ограничения вашего класса некоторым семейством (т. Е. «Параметрическими методами»), либо с помощью неявного ограничения, обычно связывающего качество аппроксимантов со сложностью целевой функции (т. Е. Аналог слабое усвоение знаний в повышении).

$f:\mathbb{R}^d \to \mathbb{R}$

е (Икс) знак равно Σ_{J знак равно 0}^{2 d} {час}_{J} (Σ_{я знак равно 1}^{d} {грамм}_{J, я} ({Икс}_{я})),

$f(x) = \sum_{j=0}^{2d}h_j\left(\sum_{i=1}^d g_{j,i}(x_i)\right),$

g_{j, i} : R \to R

$g_{j,i} : \mathbb{R}\to\mathbb{R}$

h_{j} : R \to R

$h_j:\mathbb{R}\to\mathbb{R}$

g

$g$

h

$h$

Θ (d^{2})

$\Theta(d^2)$

(Вы спрашивали только о классах функций, но я подумал, что вы также будете заинтересованы в методах ... если нет .. упс)

— Матус
источник

«С 1957 года!» - это экспонента 1957 года, значит, из будущего ?! :)

— nbro