Что нормы и как они относятся к регуляризации?


12

В последнее время я видел много статей о разреженных представлениях, и большинство из них используют норму и выполняют некоторую минимизацию. Мой вопрос: что норма и смешанная норма? И как они имеют отношение к регуляризации?p p , qppp,q

благодаря

Ответы:


13

pНормы - это функции, которые принимают векторы и возвращают неотрицательные числа. Они определены как В случае, когда p = 2 , это называется евклидовой нормой. Вы можете определить евклидово расстояние как \ | \ vec x - \ vec y \ | _2 . Когда p = \ infty , это просто означает \ | \ vec x \ | _ \ infty = \ sup_i x_i (или \ max_i x_i ). Строго говоря, p должно быть хотя бы одним, чтобы \ | \ vec x \ | _p было нормой . Если 0 <p <1 , то \ | \ vec x \ | _p р = 2

xp=(i=1d|xi|p)1/p
p=2 р = | | х | | = вир я х я макс я х я р | | х | | рxy2p=x=supiximaxixipxpxp0<p<1xp на самом деле не является нормой, потому что нормы должны удовлетворять неравенству треугольника.

(Существуют также нормы , которые определяются аналогично, за исключением функций вместо векторов или последовательностей - на самом деле это одно и то же, поскольку векторы являются функциями с конечными областями.)Lp

Я не знаю о каком-либо использовании нормы в приложении машинного обучения, где , кроме случаев, когда . Обычно вы видите или , а иногда где вы хотите ослабить случай ; не является строго выпуклым в , но есть для . Это может сделать поиск решения «легче» в определенных случаях.p = p = 2 p = 1 1 < p < 2 p = 1 x1 xxp 1 < p < p>2p=p=2p=11<p<2p=1x1xxp1<p<

В контексте регуляризации, если вы добавите к своей целевой функции, вы скажете, что ожидаете, что будет разреженным , то есть в основном состоит из нулей. Это немного технически, но в основном, если есть плотное решение, вероятно, есть более редкое решение с той же нормой. Если вы ожидаете, что ваше решение будет плотным, вы можете добавить к своей цели, потому что тогда намного проще работать с его производной. Оба служат для предотвращения слишком большого веса раствора.xx2 2x1xx22

Смешанная норма возникает, когда вы пытаетесь объединить несколько источников. По сути, вы хотите, чтобы вектор решения состоял из нескольких частей , где - индекс некоторого источника. норма только -норм все -норм собран в векторе. То естьjp,qqpxp,q=( m j = 1 ( d i = 1 | x j i | p ) q / p)1/qxjjp,qqp

xp,q=(j=1m(i=1d|xij|p)q/p)1/q

Цель этого состоит не в том, чтобы «перерасширить» набор решений, скажем, с помощью . Отдельные фрагменты редки, но вы не рискуете обнулить целый вектор решения, взяв норму всех решений. Так что вместо этого вы используете норму снаружи. 1 2x1,212

Надеюсь, это поможет.

Смотрите эту статью для более подробной информации.


1
+1 за объяснение смешанных норм. Я никогда не понимал их сам.
Суреш Венкатасубраманян

(+1) Хороший ответ. Добро пожаловать в CrossValidated, Джон!
MånsT
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.