Вопросы с тегом «regularization»

Включение дополнительных ограничений (обычно штраф за сложность) в процесс подбора модели. Используется для предотвращения переобучения / повышения точности прогнозирования.



3
Почему Лассо обеспечивает Выбор Переменных?
Я читал « Элементы статистического обучения» и хотел бы знать, почему Лассо обеспечивает выбор переменных, а регрессия гребней - нет. Оба метода минимизируют остаточную сумму квадратов и имеют ограничение на возможные значения параметров ββ\beta . Для Лассо ограничение ||β||1≤t||β||1≤t||\beta||_1 \le t , тогда как для гребня это ||β||2≤t||β||2≤t||\beta||_2 \le t …

5
Что такое регуляризация в простом английском?
В отличие от других статей, я нашел запись в Википедии по этой теме нечитаемой для не математического человека (такого как я). Я понял основную идею, что вы предпочитаете модели с меньшим количеством правил. Чего я не понимаю, так это как вы переходите от набора правил к «показателю регуляризации», который вы …

6
Регуляризация L2 эквивалентна гауссовскому приору
Я продолжаю читать это и интуитивно вижу это, но как перейти от регуляризации L2 к тому, что аналитически это - Приор Гаусса? То же самое можно сказать и о том, что L1 эквивалентен предшествующему лапласу. Любые дальнейшие ссылки будут великолепны.

2
Почему усадка работает?
Чтобы решить проблемы выбора модели, ряд методов (LASSO, гребневая регрессия и т. Д.) Будут сжимать коэффициенты переменных-предикторов к нулю. Я ищу интуитивное объяснение того, почему это улучшает способность к прогнозированию. Если истинное влияние переменной на самом деле было очень велико, почему сокращение параметра не приводит к худшему прогнозу?

7
Почему термин регуляризации * добавляется * к функции стоимости (вместо умножения и т. Д.)?
Всякий раз, когда используется регуляризация, она часто добавляется к функции стоимости, например, в следующей функции стоимости. Это имеет для меня интуитивный смысл, поскольку минимизирует Функция стоимости означает минимизацию ошибки (левый член) и минимизацию величин коэффициентов (правый термин) одновременно (или, по крайней мере, балансирование двух минимизаций).J(θ)=12(y−θXT)(y−θXT)T+α∥θ∥22J(θ)=12(y−θXT)(y−θXT)T+α‖θ‖22 J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2 …

6
Является ли регрессия гребня бесполезной в больших размерах (
Рассмотрим старую добрую регрессионную проблему с pпp предикторами и размером выборки . Обычная мудрость заключается в том, что оценщик OLS будет более подходящим и, как правило, будет превосходить оценщик регрессии гребня:Стандартно используется перекрестная проверка для нахождения оптимального параметра регуляризации . Здесь я использую 10-кратное резюме. Уточнение уточнения: когда , под …

6
Почему мультиколлинеарность не проверяется в современной статистике / машинном обучении
В традиционной статистике при построении модели мы проверяем мультиколлинеарность, используя такие методы, как оценки коэффициента инфляции дисперсии (VIF), но в машинном обучении вместо этого мы используем регуляризацию для выбора признаков и, похоже, не проверяем, коррелированы ли функции вообще. Зачем мы это делаем?

3
Методы регуляризации для логистической регрессии
Регуляризация с использованием таких методов, как Ridge, Lasso, ElasticNet, довольно распространена для линейной регрессии. Я хотел знать следующее: применимы ли эти методы для логистической регрессии? Если да, есть ли различия в том, как их нужно использовать для логистической регрессии? Если эти методы не применимы, как можно упорядочить логистическую регрессию?

1
Нейронные сети: импульс изменения веса и снижение веса
Momentum используется для уменьшения колебаний веса в последовательных итерациях:αα\alpha Е(ш)шηΔ ωя( t + 1 ) = - η∂Е∂веся+ α Δ ωя( т ) ,Δωя(T+1)знак равно-η∂Е∂веся+αΔωя(T),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), где - функция ошибки, - вектор весов, - скорость обучения.Е( ш )Е(вес)E({\bf w})весвес{\bf w}ηη\eta Снижение веса …

5
Как вывести решение о регрессии гребня?
У меня возникли некоторые проблемы с выводом решения для регрессии гребня. Я знаю регрессионное решение без условия регуляризации: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Но после добавления термина L2 к функции стоимости, получается решениеλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.

3
Эмпирическое обоснование одного стандартного правила ошибки при использовании перекрестной проверки
Существуют ли какие-либо эмпирические исследования, оправдывающие использование единого стандартного правила ошибки в пользу скупости? Очевидно, что это зависит от процесса генерации данных, но все, что анализирует большой массив наборов данных, было бы очень интересно прочитать. «Одно стандартное правило ошибки» применяется при выборе моделей путем перекрестной проверки (или, в более общем …

7
Почему регуляризация не устраняет голод данных в Deep Neural Nets?
Проблема, с которой я часто сталкивался в контексте нейронных сетей в целом и глубоких нейронных сетей в частности, заключается в том, что они «жаждут данных» - то есть они плохо работают, если у нас нет большого набора данных с помощью которого тренируется сеть. Насколько я понимаю, это связано с тем, …

2
Если интерес представляет только прогноз, зачем использовать лассо над хребтом?
На странице 223 «Введение в статистическое обучение» авторы суммируют различия между регрессией гребня и лассо. Они предоставляют пример (рис. 6.9) того, когда «лассо имеет тенденцию превосходить регрессию гребня с точки зрения смещения, дисперсии и MSE». Я понимаю, почему лассо может быть желательным: это приводит к разреженным решениям, поскольку сокращает многие …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.