Показана эквивалентность между

По ссылкам Книга 1 , Книга 2 и бумага .

Было упомянуто, что существует эквивалентность между регуляризованной регрессией (Ridge, LASSO и Elastic Net) и их формулами ограничения.

Я также посмотрел на Cross Validated 1 и Cross Validated 2 , но я не вижу четкого ответа, демонстрирующего эту эквивалентность или логику.

Мой вопрос

Как показать эту эквивалентность, используя Каруша-Куна-Такера (KKT)?

Следующие формулы для регрессии Риджа.

НОТА

Этот вопрос не домашнее задание. Это только для улучшения моего понимания этой темы.

ОБНОВИТЬ

У меня еще нет идеи.

— jeza
источник

Зачем вам нужно более 1 ответа? Нынешний ответ, по-видимому, дает исчерпывающий ответ на этот вопрос. Если вы хотите узнать больше о методах оптимизации, вы можете начать с « Выпуклой оптимизации» Ливена Ванденберга и Стивена П. Бойда.

— Sycorax сообщает восстановить Monica

@Sycorax, спасибо за ваши комментарии и книгу, которую вы мне предоставили. Ответ не очень ясен для меня, и я не могу просить больше разъяснений. Таким образом, более чем один ответ может позволить мне увидеть другую точку зрения и способ описания.

— Jeza

@jeza, Чего не хватает в моем ответе?

— Рой

Пожалуйста, введите ваш вопрос в текстовом виде, а не просто опубликовать фотографию (см. Здесь ).

— gung - Восстановить Монику

Ответы:

Более технический ответ заключается в том, что ограниченная задача оптимизации может быть записана в терминах множителей Лагранжа. В частности, лагранжиан, связанный с задачей оптимизации с ограничениями, имеет вид

L (β) = \underset{β}{a r g m i n} {\sum_{i = 1}^{N} {(y_{i} - \sum_{j = 1}^{p} x_{i j} β_{j})}^{2}} + μ {(1 - α) \sum_{j = 1}^{p} | β_{j} | + α \sum_{j = 1}^{p} β_{j}^{2}}

$\mathcal L(\beta) = \underset{\beta}{\mathrm{argmin}}\,\left\{\sum_{i=1}^N \left(y_i - \sum_{j=1}^p x_{ij} \beta_j\right)^2\right\} + \mu \left\{(1-\alpha) \sum_{j=1}^p |\beta_j| + \alpha \sum_{j=1}^p \beta_j^2\right\}$ где

μ

$\mu$ является множителем, выбранным для удовлетворения ограничений задачи. Таким образом, условия первого порядка (которых достаточно, поскольку вы работаете с хорошими правильными выпуклыми функциями) для этой задачи оптимизации можно получить, дифференцируя лагранжиан по

β

$\beta$ и устанавливая производные равными 0 (это немного больше нюансов, поскольку LASSO у части есть недифференцируемые точки, но существуют методы из выпуклого анализа, чтобы обобщить производную, чтобы условие первого порядка все еще работало). Ясно, что эти условия первого порядка идентичны условиям первого порядка записанной вами неограниченной задачи.

Тем не менее, я думаю, что полезно понять, почему в целом, с этими проблемами оптимизации, часто можно думать о проблеме либо через призму проблемы ограниченной оптимизации, либо через призму проблемы без ограничений. Более конкретно, предположим, что у нас есть неограниченная задача оптимизации следующего вида:

max_{x} f (x) + λ g (x)

$\max_x f(x) + \lambda g(x)$ Мы всегда можем попытаться решить эту оптимизацию напрямую, но иногда, возможно, имеет смысл разбить эту проблему на подкомпоненты. , В частности, нетрудно видеть, что

max_{x} f (x) + λ g (x) = max_{t} (max_{x} f (x) s . t g (x) = t) + λ t

$\max_x f(x) + \lambda g(x) = \max_t \left(\max_x f(x)\ \mathrm{ s.t }\ g(x) = t\right) + \lambda t$

(и предполагая, что функции, которые должны быть оптимизированы, фактически достигают своих оптимальных значений), мы можем связать с это значение

Так для фиксированного значения

λ

$\lambda$

t^{*}

$t^*$ это решает проблему внешней оптимизации. Это дает нам своего рода отображение от неограниченных задач оптимизации к ограниченным задачам. В вашем конкретном случае, поскольку все хорошо ведется для регрессии эластичной сети, это отображение на самом деле должно быть одно к одному, поэтому будет полезно иметь возможность переключаться между этими двумя контекстами в зависимости от того, какой из них более полезен для конкретного приложения. В целом, эта взаимосвязь между ограниченными и неограниченными проблемами может быть менее правильной, но все же полезно подумать о том, в какой степени вы можете перемещаться между ограниченной и неограниченной проблемой.

Изменить: В соответствии с просьбой, я включу более конкретный анализ для регрессии гребня, так как он отражает основные идеи, избегая необходимости разбираться с техническими особенностями, связанными с недифференцируемостью штрафа LASSO. Напомним, мы решаем задачу оптимизации (в матричной записи):

\underset{β}{a r g m i n} {\sum_{i = 1}^{N} y_{i} - x_{i}^{T} β} s . t . | | β | |^{2} \leq M

$\underset{\beta}{\mathrm{argmin}} \left\{\sum_{i=1}^N y_i - x_i^T \beta\right\}\quad\mathrm{s.t.}\, ||\beta||^2 \leq M$

Пусть $\beta^{OLS}$ будет решением OLS (т. Е. Когда нет ограничений). Тогда я остановлюсь на случае, когда $M < \left|\left|\beta^{OLS}\right|\right|$ (при условии, что это существует), поскольку в противном случае ограничение неинтересно, поскольку оно не связывает. Лагранжиан для этой задачи можно записать в виде

L (β) = \underset{β}{a r g m i n} {\sum_{i = 1}^{N} y_{i} - x_{i}^{T} β} - μ \cdot | | β | |^{2} \leq M

$\mathcal L(\beta) = \underset{\beta}{\mathrm{argmin}} \left\{\sum_{i=1}^N y_i - x_i^T \beta\right\} - \mu\cdot||\beta||^2 \leq M$ Тогдадифференцируя, мы получаем условия первого порядка:

0 = - 2 (\sum_{i = 1}^{N} y_{i} x_{i} + (\sum_{i = 1}^{N} x_{i} x_{i}^{T} + μ I) β)

$0 = -2 \left(\sum_{i=1}^N y_i x_i + \left(\sum_{i=1}^N x_i x_i^T + \mu I\right) \beta\right)$ что является просто системой линейные уравнения иследовательномогут быть

\hat{β} = {(\sum_{i = 1}^{N} x_{i} x_{i}^{T} + μ I)}^{- 1} (\sum_{i = 1}^{N} y_{i} x_{i})

$\hat\beta = \left(\sum_{i=1}^N x_i x_i^T + \mu I\right)^{-1}\left(\sum_{i=1}^N y_i x_i\right)$ . Затем множитель просто выбирается, чтобы сделать ограничение истинным, т.е. нам нужно для некоторого выбора множителя

μ

$\mu$

{({(\sum_{i = 1}^{N} x_{i} x_{i}^{T} + μ I)}^{- 1} (\sum_{i = 1}^{N} y_{i} x_{i}))}^{T} ({(\sum_{i = 1}^{N} x_{i} x_{i}^{T} + μ I)}^{- 1} (\sum_{i = 1}^{N} y_{i} x_{i})) = M

$\left(\left(\sum_{i=1}^N x_i x_i^T + \mu I\right)^{-1}\left(\sum_{i=1}^N y_i x_i\right)\right)^T\left(\left(\sum_{i=1}^N x_i x_i^T + \mu I\right)^{-1}\left(\sum_{i=1}^N y_i x_i\right)\right) = M$

μ

$\mu$

μ \in (0, \infty)

$\mu \in (0,\infty)$

M \in (0, | | β^{O L S} | |)

$M \in \left(0, \left|\left|\beta^{OLS}\right|\right|\right)$

lim_{μ \to 0} M (μ) = | | β^{O L S} | |

$\lim_{\mu\to 0} M(\mu) = \left|\left|\beta^{OLS}\right|\right|$

lim_{μ \to \infty} M (μ) = 0

$\lim_{\mu \to \infty} M(\mu) = 0$

μ (M)

$\mu(M)$

M

$M$

μ \to 0

$\mu \to 0$

M \to | | β^{O L S} | |

$M \to \left|\right|\beta^{OLS}\left|\right|$ , Если ограничение не является обязательным, нет смысла ослаблять его, поэтому множитель исчезает.

— stats_model
источник

Не могли бы вы предоставить нам подробный ответ шаг за шагом с практическим примером, если это возможно.

— jeza

Большое спасибо, почему вы не упоминаете KKT? Я не знаком с этой областью, поэтому относитесь ко мне как к старшекласснику.

— Jeza

M > | | β^{O L S} | |

$M > ||\beta^{OLS}||$

Существует большой анализ stats_model в своем ответе .

Я попытался ответить на аналогичный вопрос в Доказательстве эквивалентных формул регрессии Риджа .

$t$ $\lambda$ в 2 моделях.

Как я уже писал и видно из stats_model в его анализе, отображение зависит от данных. Поэтому мы выберем конкретную реализацию проблемы. Тем не менее, код и наброски решения добавят интуицию к происходящему.

Мы сравним следующие 2 модели:

The Regularized Model: \arg min_{x} \frac{1}{2} {‖ A x - y ‖}_{2}^{2} + λ {‖ x ‖}_{2}^{2}

$\text{The Regularized Model: } \arg \min_{x} \frac{1}{2} {\left\| A x - y \right\|}_{2}^{2} + \lambda {\left\| x \right\|}_{2}^{2}$

The Constrained Model: \begin{aligned} \arg min_{x} & \frac{1}{2} {‖ A x - y ‖}_{2}^{2} \\ subject to & {‖ x ‖}_{2}^{2} \leq t \end{aligned}

$\text{The Constrained Model: } \begin{align*} \arg \min_{x} \quad & \frac{1}{2} {\left\| A x - y \right\|}_{2}^{2} \\ \text{subject to} \quad & {\left\| x \right\|}_{2}^{2} \leq t \end{align*}$

$\hat{x}$ $\tilde{x}$

$t$ $\lambda$ $\hat{x} = \tilde{x}$
$\lambda$ $t$ ${L}_{2}$ ) Norm Constraint ) ,

$t$ $\lambda$ .

Решатель в основном решает:

\begin{aligned} \arg_{λ} & λ \\ subject to & {‖ {(A^{T} A + 2 λ I)}^{- 1} A^{T} b ‖}_{2}^{2} - t = 0 \end{aligned}

$\begin{align*} \arg_{\lambda} \quad & \lambda \\ \text{subject to} \quad & {\left\| {\left( {A}^{T} A + 2 \lambda I \right)}^{-1} {A}^{T} b \right\|}_{2}^{2} - t = 0 \end{align*}$

Итак, вот наша Матрица:

mA =

   -0.0716    0.2384   -0.6963   -0.0359
    0.5794   -0.9141    0.3674    1.6489
   -0.1485   -0.0049    0.3248   -1.7484
    0.5391   -0.4839   -0.5446   -0.8117
    0.0023    0.0434    0.5681    0.7776
    0.6104   -0.9808    0.6951   -1.1300

И вот наш вектор:

Это отображение:

$t$ $\lambda = 0$

Увеличение в диапазоне [0, 10]:

Полный код доступен в моем кросс-валидированном G4-хранилище StackExchange Q401212 .

— Royi
источник