Говорят, что штрафованные регрессионные оценки, такие как LASSO и ridge, соответствуют байесовским оценкам с определенными априорными значениями.
Да, это правильно. Всякий раз, когда у нас возникает проблема оптимизации, включающая максимизацию логарифмической функции правдоподобия плюс функцию штрафа для параметров, это математически эквивалентно апостериорной максимизации, где функция штрафа принимается за логарифм предыдущего ядра. † Чтобы увидеть это, предположим, что у нас есть штрафная функция w, использующая параметр настройки λ . Целевая функция в этих случаях может быть записана как:†wλ
ЧАСИкс( θ | λ )= ℓИкс( θ ) - w ( θ | λ )= ln( ЛИкс( θ ) ⋅ exp( - w ( θ | λ ) ) )= ln( ЛИкс( θ ) π( θ | λ )∫LИкс( θ ) π( θ | λ ) dθ) +const= lnπ(θ|x,λ)+const,
где мы используем предшествующий π(θ|λ)∝exp(−w(θ|λ)) . Обратите внимание, что параметр настройки в оптимизации рассматривается как фиксированный гиперпараметр в предыдущем распределении. Если вы проводите классическую оптимизацию с фиксированным параметром настройки, это эквивалентно байесовской оптимизации с фиксированным гиперпараметром. Для регрессии LASSO и Ridge штрафные функции и соответствующие априорные эквиваленты:
LASSO RegressionRidge Regressionπ(θ|λ)π(θ|λ)=∏k=1mLaplace(0,1λ)=∏k=1mλ2⋅exp(−λ|θk|),=∏k=1mNormal(0,12λ)=∏k=1mλ/π−−−√⋅exp(−λθ2k).
Первый метод штрафует коэффициенты регрессии в соответствии с их абсолютной величиной, которая эквивалентна наложению предшествующего Лапласа, расположенного в нуле. Последний метод штрафует коэффициенты регрессии в соответствии с их квадратом, который является эквивалентом наложения нормального априора, расположенного в нуле.
Теперь частый пользователь будет оптимизировать параметр настройки путем перекрестной проверки. Есть ли байесовский эквивалент этого и используется ли он вообще?
До тех пор, пока метод частых рассуждений может быть поставлен как задача оптимизации (а не, скажем, включая проверку гипотезы или что-то в этом роде), будет существовать байесовская аналогия, использующая эквивалентный априор. Подобно тому, как частые пользователи могут рассматривать параметр настройки λ как неизвестный и оценивать его по данным, байесовский аналог может трактовать гиперпараметр λ как неизвестный. В полном байесовском анализе это будет включать в себя предоставление гиперпараметру собственного априора и нахождение апостериорного максимума при этом априоре, что будет аналогично максимизации следующей целевой функции:
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−h(λ)=ln(Lx(θ)⋅exp(−w(θ|λ))⋅exp(−h(λ)))=ln(Lx(θ)π(θ|λ)π(λ)∫Lx(θ)π(θ|λ)π(λ)dθ)+const=lnπ(θ,λ|x)+const.
Этот метод действительно используется в байесовском анализе в тех случаях, когда аналитику неудобно выбирать определенный гиперпараметр для своего априора, и он стремится сделать априор более размытым, рассматривая его как неизвестный и давая ему распределение. (Обратите внимание, что это просто неявный способ придания более рассеянного значения интересующему параметру θ .)
(Комментарий от statslearner2 ниже) Я ищу числовые эквивалентные оценки MAP. Например, для хребта с фиксированным штрафом существует гауссовский априор, который даст мне оценку MAP, точно равную оценке хребта. Теперь, для k-кратного CV-риджа, какой гиперприоритет даст мне оценку MAP, которая похожа на оценку CV-риджа?
Прежде чем перейти к перекрестной проверке в K кратном порядке, сначала стоит отметить, что математически метод максимального апостериорного (MAP) является просто оптимизацией функции параметра θ и данных x . Если вы хотите разрешить неправильные априорные значения, тогда область действия включает в себя любую проблему оптимизации, связанную с функцией этих переменных. Таким образом, любой метод частых сообщений, который может быть сформулирован как отдельная задача оптимизации такого рода, имеет аналогию MAP, а любой метод частых случаев, который не может быть оформлен как отдельная оптимизация такого типа, не имеет аналогии MAP.
В приведенной выше форме модели, включающей в себя функцию штрафа с параметром настройки, для оценки параметра настройки λ обычно используется перекрестная проверка в K кратном размере . Для этого метода разбиения данных вектора х в К суб-векторы х 1 , . , , , Х К . Для каждого из суб-вектора к = 1 , . , , , K вы подгоняете модель к данным «обучения» x - k, а затем измеряете подгонку модели к данным «тестирования» x kλxKx1,...,xKk=1,...,Kx−kxk, При каждом подборе вы получаете оценку параметров модели, которая затем дает вам прогнозы данных тестирования, которые затем можно сравнить с фактическими данными тестирования, чтобы получить показатель «потерь»:
EstimatorPredictionsTesting lossθ^(x−k,λ),x^k(x−k,λ),Lk(x^k,xk|x−k,λ).
Меры потерь для каждого из K "сгибов" могут затем быть агрегированы, чтобы получить общую меру потерь для перекрестной проверки:
L(x,λ)=∑kLk(x^k,xk|x−k,λ)
Затем оценивается параметр настройки путем минимизации общего показателя потерь:
λ^≡λ^(x)≡arg min λL(x,λ).
Мы можем видеть, что это проблема оптимизации, и поэтому у нас теперь есть две отдельные задачи оптимизации (то есть одна, описанная в разделах выше для θ , и одна, описанная здесь для λ ). Поскольку последняя оптимизация не включает в себя θ , мы можем объединить эти оптимизации в одну проблему с некоторыми техническими особенностями, которые я рассмотрю ниже. Для этого рассмотрим задачу оптимизации с целевой функцией:
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−δL(x,λ),
где δ>0 - весовое значение на потери при настройке. При δ→∞ вес при оптимизации потерь при настройке становится бесконечным, и поэтому задача оптимизации дает оценочный параметр настройки из K кратной перекрестной проверки (в пределе). Оставшаяся часть целевой функции является стандартной целевой функцией, зависящей от этого оценочного значения параметра настройки. Теперь, к сожалению, взяв δ=∞ , мы усложняем задачу оптимизации, но если взять δ как очень большое (но все же конечное) значение, мы можем аппроксимировать комбинацию двух задач оптимизации до произвольной точности.
Из приведенного выше анализа мы видим, что можно сформировать аналогию MAP с процессом подбора моделей и перекрестной проверки с K кратным увеличением . Это не точная аналогия, но это близкая аналогия с произвольной точностью. Также важно отметить, что аналогия MAP больше не использует ту же функцию правдоподобия, что и исходная проблема, поскольку функция потерь зависит от данных и, таким образом, воспринимается как часть вероятности, а не как предыдущая. На самом деле, полная аналогия заключается в следующем:
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−δL(x,λ)=ln(L∗x(θ,λ)π(θ,λ)∫L∗x(θ,λ)π(θ,λ)dθ)+const,
where L∗x(θ,λ)∝exp(ℓx(θ)−δL(x,λ)) and π(θ,λ)∝exp(−w(θ|λ)), with a fixed (and very large) hyper-parameter δ.
† This gives an improper prior in cases where the penalty does not correspond to the logarithm of a sigma-finite density.