Ответы:
Давайте представим, что вы хотите вывести некоторый параметр из некоторых наблюдаемых пар ввода-вывода . Предположим, что выходы линейно связаны с входами через и что данные повреждены некоторым шумом :
где - гауссовский шум со средним значением и дисперсией . Это приводит к вероятности Гаусса:
Давайте упорядочим параметр , наложив гауссовский априор где - строго положительный скаляр. Следовательно, объединяя вероятность и априор мы просто имеем:
Давайте возьмем логарифм вышеприведенного выражения. Отбрасывая некоторые константы, мы получаем:
Если мы максимизируем приведенное выше выражение по отношению к , мы получим так называемую максимальную апостериорную оценку для или MAP-оценку для краткости. В этом выражении становится очевидным, почему гауссовский априор можно интерпретировать как член регуляризации L2.
Аналогичным образом, соотношение между нормой L1 и априорной Лапласом может быть понято таким же образом. Возьмите вместо гауссовского априора, априор Лапласа объедините его с вероятностью и возьмите логарифм
Хорошим справочным материалом (возможно, немного продвинутым), в котором подробно рассматриваются обе проблемы, является документ «Адаптивная разреженность для контролируемого обучения», который в настоящее время не так легко найти в Интернете. В качестве альтернативы посмотрите на «Адаптивная разреженность с использованием Jeffreys Prior» . Другой хороший справочник - «О байесовской классификации с априорными точками Лапласа» .
Для линейной модели с многовариантным нормальным предшествующим и многомерным нормальным правдоподобием вы получите многомерное нормальное апостериорное распределение, в котором среднее значение апостериорной (и максимальной апостериорной модели) будет именно тем, что вы получите, используя регуляризованный по Тихонову ( регуляризованные) наименьших квадратов с соответствующим параметром регуляризации.
Обратите внимание, что есть более фундаментальное различие в том, что байесовский апостериор является распределением вероятностей, в то время как регуляризованное по Тихонову решение методом наименьших квадратов является оценкой конкретной точки.
Это обсуждается во многих учебниках по байесовским методам для обратных задач. См., Например:
http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/
http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/
Точно так же, если у вас есть предшествующий лапласиану множитель и нормальное правдоподобие, то максимум апостериорного распределения возникает в точке, которую вы могли бы получить, решая регуляризованную задачу наименьших квадратов .
Сначала обратите внимание, что медиана минимизирует норму L1 (смотрите здесь или здесь, чтобы узнать больше о L1 и L2)
в то время как среднее значение минимизирует L2
Теперь напомним, что параметр нормальных распределений может быть оценен с использованием среднего значения выборки , тогда как оценщик MLE для параметра для распределения Лапласа равен медиане. Таким образом, использование нормального распределения эквивалентно оптимизации нормы L2, а использование распределения Лапласа - использованию оптимизации L1. На практике вы можете думать об этом, как о том, что медиана менее чувствительна к выбросам, чем среднее, и то же самое, если использовать распределение Лапласа с хвостом выше, делает вашу модель менее подверженной выбросам, чем использование нормального распределения.
Херли, WJ (2009) Индуктивный подход для расчета MLE для двойного экспоненциального распределения . Журнал современных прикладных статистических методов: 8 (2), статья 25.
Для задачи регрессии с переменными (без перехвата) вы делаете OLS как
В регуляризованной регрессии со штрафом вы делаете
Мы можем эквивалентно сделать (обратите внимание на изменения знака)
Это напрямую связано с байесовским принципом
или эквивалентно (в условиях регулярности)
Теперь нетрудно понять, какое экспоненциальное распределение семейства соответствует какому типу штрафа.
Чтобы поставить эквивалентность более точно:
Оптимизация весов модели для минимизации квадрата функции потери ошибок с регуляризацией L2 эквивалентна нахождению весов, которые наиболее вероятны при апостериорном распределении, оцененном по правилу Байеса, с независимыми от нуля средними гауссовыми весами до
Доказательство:
Функция потерь, как описано выше, будет
Обратите внимание, что для многомерного гауссовского распределения используется распределение
Используя правило Байеса, мы имеем
Где мы можем разделить многомерный гассиан на продукт, потому что ковариация кратна единичной матрице.
Возьмите отрицательную вероятность логарифма
Конечно, мы можем отбросить константу и умножить ее на любую величину без существенного влияния на функцию потерь. (константа ничего не делает, умножение эффективно масштабирует скорость обучения. Не влияет на расположение минимумов). Таким образом, мы можем видеть, что отрицательная логарифмическая вероятность апостериорного распределения является функцией потерь, эквивалентной регуляризованной квадратной функции потери ошибок L2.
Эта эквивалентность является общей и справедлива для любой параметризованной функции весов, а не только для линейной регрессии, как представляется выше.
Существуют две характеристики байесовского моделирования, которые необходимо подчеркнуть при обсуждении эквивалентности определенных штрафных оценок максимального правдоподобия и байесовских процедур.
D dimension
линейной регрессии могутbeta
и могутsigma
быть явные решения? Я читаю PRML, нахожу уравнение (1.67) на странице 30 и не знаю, как его решить. По максимальной вероятности, мы решаем,beta
а затемsigma
устанавливаем градиент на ноль. В регуляризованном наименьшем квадрате, так как параметр рекуляризации некоторыйlambda
известен, мы решаемbeta
непосредственно. Но если мы непосредственно решить ПДЧ, что порядок решенияbeta
,sigma
? Могут ли они иметь явное решение или мы должны использовать итеративный процесс?