Редуцирующая регуляризация для стохастических матриц

10

Хорошо известно (например, в области измерения сжатия), что норма является «вызывающей разреженность» в том смысле, что если минимизировать функционал (для фиксированной матрицы и вектора ), для достаточно большого размера , у многих вариантов , и вероятно, будет много точно нулевых записей в результирующем . $L_1$ $A$ $\vec{b}$

f_{A, \vec{b}} (\vec{x}) = ‖ A \vec{x} - \vec{b} ‖_{2}^{2} + λ ‖ \vec{x} ‖_{1}

$f_{A,\vec{b}}(\vec{x})=\|A\vec{x}-\vec{b}\|_2^2+\lambda\|\vec{x}\|_1$

λ > 0

$\lambda>0$

A

$A$

\vec{b}

$\vec{b}$

λ

$\lambda$

\vec{x}

$\vec{x}$

Но если мы минимизируем $f_{A,\vec{b}}$ при условии, что записи $\vec{x}$ положительны и суммируются с $1$ , то термин $L_1$ не имеет никакого эффекта (потому что $\|\vec{x}\|_1=1$ по указу). Существует ли аналогичный регуляризатор $L_1$ типа, который работает в этом случае для поощрения того, что результирующий $\vec{x}$ является редким?

— Джастин Соломон
источник

Не могли бы вы уточнить, что «тогда термин

L_{1}

$L_1$ не имеет никакого эффекта (потому что

| | x | |_{1} = 1

$||x||_1 = 1$ по указу)»?

— Cam.Davidson.Pilon

2

@ Cam.Davidson.Pilon:

x_{i} \geq 0

$x_i \geq 0$ и

\sum_{i} x_{i} = 1

$\sum_i x_i = 1$ подразумевают

‖ x ‖_{1} = 1

$\|x\|_1 = 1$ . :)

— кардинал

1

Джастин: Некоторые подробности могут дать больше шансов на полезный ответ. Вот несколько вопросов, которые сразу же возникают при прочтении вашего описания: ( 1 ) Где находится «стохастическая матрица» во всем этом? Вы, кажется, только описываете ситуацию со случайным вектором . Это могут быть отдельные строки вашей стохастической матрицы, или другая структура может стать очевидной, когда появятся дополнительные детали. ( 2 ) Вы хотите, чтобы сами вероятности были редкими или, возможно, редкими в какой-то подходящей основе? Если первое, почему? (Это случайное блуждание по взвешенному (разреженному) графику?)

— кардинал

Почему вы требуете, чтобы записи были положительными ? Стоит ли вместо этого требовать, чтобы они были неотрицательными ? Кроме того, рассматривали ли вы возможность повторной параметризации, чтобы устранить ограничение (предполагая, что вы имеете в виду неотрицательный)? Другими словами, попробуйте

\vec{x}

$\vec x$

x_{i} = \frac{\exp (w_{i})}{\sum_{j} \exp (w_{j})}

$x_i = \frac{\exp(w_i)}{\sum_j \exp(w_j)}$

— Джренни

1

@jrennie: Учитывая контекст, под позитивом Джастин определенно подразумевал неотрицательный .

— кардинал

2

Общий метод создания разреженных решений - это оценка MAP с нормальным нулевым значением до неизвестной дисперсии.

p (x_{i} | σ_{i}^{2}) \sim N (0, σ_{i}^{2})

$p(x_i|\sigma_i^2)\sim N(0,\sigma_i^2)$

Если вы затем назначите перед которого режим равен нулю, то задний режим обычно разреженный. вытекает из этого подхода, принимая экспоненциальное распределение смешивания. $\sigma_i^2$ $L_1$

p (σ_{i}^{2} | λ) \sim E x p o (\frac{λ^{2}}{2})

$p(\sigma_i^2|\lambda)\sim Expo\left(\frac{\lambda^2}{2}\right)$

Тогда вы получите

\log [p (x_{i} | λ)] = - λ | x_{i} | + \log [\frac{λ}{2}]

$\log[p(x_i|\lambda)]=-\lambda | x_i|+\log\left[\frac{\lambda}{2}\right]$

Некоторыми альтернативами являются обобщенный двойной парето, полу-коши, инвертированная бета. В некотором смысле они лучше, чем лассо, потому что они не уменьшают большие значения. На самом деле я уверен, что обобщенное двойное парето можно записать как смесь экспонент. То есть мы пишем а затем гамма-приоритет перед . Мы получили: $\lambda=\lambda_i$ $p(\lambda_i|\alpha\beta)$

p (x_{i} | α β) = \frac{α}{2 β} {(1 + \frac{| x_{i} |}{β})}^{- (α + 1)}

$p(x_i|\alpha\beta)=\frac{\alpha}{2\beta}\left(1+\frac{|x_i|}{\beta}\right)^{-(\alpha+1)}$

Обратите внимание, что я включил нормализующие константы, так как они помогают выбрать хорошие глобальные параметры. Теперь, если мы применим ограничение по дальности, у нас будет более сложная проблема, так как нам нужно перенормировать симплекс.

Еще одна общая особенность штрафов, вызывающих разреженность, заключается в том, что они не дифференцируемы в нуле. Обычно это происходит потому, что левый и правый пределы имеют противоположный знак.

Это основано на блестящей работе Николаса Полсона и Джеймса Скотта о представлениях средней дисперсии смеси, которые они используют для разработки TIRLS - массового расширения наименьших квадратов до очень большого класса комбинаций потерь и штрафов.

В качестве альтернативы вы можете использовать априор, который определен на симплексе, но имеет режимы в маргинальных распределениях в нуле. Одним из примеров является распределение Дирихле со всеми параметрами от 0 до 1. Предполагаемое наказание будет выглядеть так:

- \sum_{i = 1}^{n - 1} (a_{i} - 1) \log (x_{i}) - (a_{n} - 1) \log (1 - \sum_{i = 1}^{n - 1} x_{i})

$-\sum_{i=1}^{n-1}(a_i-1)\log(x_i) - (a_n-1)\log(1-\sum_{i=1}^{n-1}x_i)$

Где . Однако вы должны быть осторожны при численной оптимизации, так как штраф имеет особенности. Более надежный процесс оценки заключается в использовании апостериорного среднего. Хотя вы теряете точную разреженность, вы получите множество задних значений, близких к нулю. $0<a_i<1$

— probabilityislogic
источник

Это кажется очень интересной идеей, хотя мы не совсем готовы понимать детали! Если я правильно понимаю, идея состоит в том, что исходит из предположения, что переменные следуют за экспоненциальным распределением около 0. Итак, нам нужно распределение с центром в 0, которое лучше работает для наших переменных. Но нет явного победителя, верно? Есть ли распределения по «положительным переменным, сумма которых равна 1»? Спасибо за вашу помощь!

L_{1}

$L_1$

— Джастин Соломон

Чтобы получить разреженность, вам нужен дистрибутив с нулевым режимом. И распределение Дирихле по симплексу, которое является точно теми распределениями, которые суммируют к 1. Другой общий класс - логистический нормальный или логистический t, где у вас есть нормальное / t распределение для

\log [\frac{x_{i}}{x_{n}}]

$\log\left[\frac{x_i}{x_n}\right]$

— вероятностная

Ах, Дирихле, кажется, довольно интересен тем, что именно на симплексе мы заинтересованы, как вы упоминаете! Кажется, что другие два, о которых вы упомянули, могут внести некоторую асимметрию в , верно? Завтра мы с моим сотрудником проработаем энергетическую функцию, подразумеваемую Дирихле, и сообщим! Большое спасибо за вашу терпеливую помощь до сих пор - это далеко от нашей обычной области, но если мы можем решить это, результаты могут обеспечить значительный шаг вперед в обработке геометрии! [И, конечно, мы предоставим вам должный кредит!]

x_{n}

$x_n$

— Джастин Соломон

1

Два варианта:

Используйте штраф на . Очевидным недостатком является то, что это невыпуклый и, следовательно, трудно оптимизировать. $L_0$ $\vec x$
Перепараметризуйте, и примените штраф к новому (естественному) вектору параметров,, Это будет способствовать тому, чтобы события были в равной степени вероятными, если только для этого нет веской причины. $x_i = \frac{\exp(w_i)}{\sum_j \exp(w_j)}$ $\|\vec w\|$

— jrennie
источник

Можете ли вы объяснить, как ваша репараметризация способствует разреженности? Скорее всего, это гарантирует совершенно противоположное.

— кардинал

Это поощряет разреженность в что соответствует поощрению того, чтобы разные записи в имели одинаковое значение.

\vec{w}

$\vec w$

\vec{x}

$\vec x$

— Джренни

Да, я понимаю это. Но эти значения не будут равны нулю. Если мы возьмем ОП буквально, это не поможет и действительно «повредит» (в некотором смысле). Но, возможно, ФП заинтересован в разреженности относительно некоторой другой основы, и в этом случае это будет один из них. :)

— кардинал

Вот почему я указал в своем ответе два варианта: я думаю, что для поощрения нулей в потребуется невыпуклый штраф . Как вы заметили, Джастин, скорее всего, не имеет в виду буквально то, что он сказал.

\vec{x}

$\vec x$

— Джренни

Да, к сожалению, нам нужна редкость в основе идентичности. Так что в этом случае мы бы хотели, чтобы как можно больше равнялось .

w_{i}

$w_i$

- \infty

$-\infty$

— Джастин Соломон

1

Суть вопроса только отчасти правильна. Хотя верно то, что норма является просто константой в ограничении, проблема оптимизации ограничения вполне может иметь разреженное решение. $L_1$

Однако решение не зависит от выбора , поэтому либо существует разреженное решение, либо его нет. Другой вопрос, как на самом деле найти решение. Конечно, можно использовать стандартный квадратичный оптимизатор при линейных ограничениях, но популярные алгоритмы спуска по координатам нельзя использовать "из коробки". $\lambda$

Одно из предложений может состоять в том, чтобы оптимизировать только в условиях ограничения положительности, для разных , а затем перенормировать решение, чтобы оно имело норму 1. Алгоритм спуска по координатам должен, я считаю, быть легко модифицируемым для вычисления решения при положительности ограничение. $\lambda$ $L_1$

— NRH
источник

0

Я могу придумать три метода.

Байесовский метод: введение предварительного распределения с нулевым средним и использование вероятности типа II для оценки параметров и гиперпараметров.
Вместо этого используйте качестве регуляризации. Это не дифференцируемо, хотя. Вы можете использовать норму высшего порядка, чтобы приблизить ее. $\Vert\cdot\Vert_{\infty}$
Используйте . $-\sum_{i=1}\log x_i$

На самом деле, первый и третий методы одинаковы.

— Хан Чжан
источник