Вопросы с тегом «regularization»

Включение дополнительных ограничений (обычно штраф за сложность) в процесс подбора модели. Используется для предотвращения переобучения / повышения точности прогнозирования.

2
Предел оценки гребневой регрессии «единичная дисперсия» при
Рассмотрим регрессию гребня с дополнительным ограничением, требующим, чтобы имел единичную сумму квадратов (эквивалентно, единичную дисперсию); при необходимости можно предположить, что имеет единичную сумму квадратов:y^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=arg⁡min{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1. Каков предел β^∗λβ^λ∗\hat{\boldsymbol\beta}_\lambda^* когда λ→∞λ→∞\lambda\to\infty ? Вот некоторые утверждения, которые я …

2
покрытие доверительных интервалов регуляризованными оценками
Предположим, я пытаюсь оценить большое количество параметров по многомерным данным, используя некие регуляризованные оценки. Регуляризатор вносит некоторую погрешность в оценки, но это все же может быть хорошим компромиссом, потому что уменьшение дисперсии должно более чем компенсировать это. Проблема возникает, когда я хочу оценить доверительные интервалы (например, используя приближение Лапласа или …

1
Доказательство коэффициентов сжатия с помощью регрессии гребня посредством «спектрального разложения»
Я понял, как регрессия гребня сжимает коэффициенты геометрически к нулю. Более того, я знаю, как доказать это в специальном «ортонормированном случае», но я не совсем понимаю, как это работает в общем случае с помощью «спектральной декомпозиции».

5
Нужно ли нам еще выбирать функции при использовании алгоритмов регуляризации?
У меня есть один вопрос, касающийся необходимости использовать методы выбора признаков (значение важности признаков в случайных лесах или методы выбора однофакторных объектов и т. Д.) Перед запуском алгоритма статистического обучения. Мы знаем, что во избежание переобучения мы можем ввести штраф за регуляризацию весовых векторов. Поэтому, если я хочу сделать линейную …

1
Предупреждение libsvm «достижение максимального числа итераций» и перекрестная проверка
Я использую libsvm в режиме C-SVC с полиномиальным ядром степени 2, и мне необходимо обучить несколько SVM. Каждый тренировочный набор имеет 10 функций и 5000 векторов. Во время обучения я получаю это предупреждение для большинства SVM, которые я тренирую: WARNING: reaching max number of iterations optimization finished, #iter = 10000000 …

5
Избегайте перенастройки в регрессии: альтернативы регуляризации
Регуляризация в регрессии (линейная, логистическая ...) является наиболее популярным способом уменьшения избыточного соответствия. Когда целью является точность прогноза (не объяснение), есть ли хорошие альтернативы регуляризации, особенно подходящие для больших наборов данных (ми / миллиарды наблюдений и миллионы функций)?

2
Может ли регуляризация быть полезной, если мы заинтересованы только в моделировании, а не в прогнозировании?
Может ли регуляризация быть полезной, если мы заинтересованы только в оценке (и интерпретации) параметров модели, а не в прогнозировании или прогнозировании? Я вижу, как регуляризация / перекрестная проверка чрезвычайно полезна, если ваша цель состоит в том, чтобы делать хорошие прогнозы на основе новых данных. Но что, если вы занимаетесь традиционной …

3
Связь между регрессией гребня и регрессией PCA
Я помню, что где-то в Интернете читал связь между регрессией гребня (с регуляризацией ) и регрессией PCA: при использовании регрессии с с гиперпараметром , если , то регрессия эквивалентна удалению ПК переменная с наименьшим собственным значением.ℓ2ℓ2\ell_2 А , А , → 0ℓ2ℓ2\ell_2λλ\lambdaλ →0λ→0\lambda \to 0 Почему это правда? Это как-то …

1
Существует ли байесовская интерпретация линейной регрессии с одновременной регуляризацией L1 и L2 (она же упругая сеть)?
Хорошо известно, что линейная регрессия с штрафом эквивалентна нахождению оценки MAP с учетом гауссовского априорного коэффициента. Точно так же использование штрафа l 1 эквивалентно использованию распределения Лапласа в качестве предыдущего.l2l2l^2l1l1l^1 Нередко используют некоторую взвешенную комбинацию регуляризации и l 2 . Можно ли сказать, что это эквивалентно некоторому предварительному распределению по …


4
Что означает «степень свободы» в нейронных сетях?
В книге Бишопа «Классификация образов и машинное обучение» описывается метод регуляризации в контексте нейронных сетей. Тем не менее, я не понимаю параграф, описывающий, что в процессе обучения количество степеней свободы увеличивается вместе со сложностью модели. Соответствующая цитата следующая: Альтернативой регуляризации как способу управления эффективной сложностью сети является процедура ранней остановки. …

2
Частота и приоры
Робби Маккиллиам говорит в комментарии к этому сообщению: Следует отметить, что, с точки зрения частых, нет никаких причин, по которым вы не можете включить в модель предыдущие знания. В этом смысле представление «частых» проще: у вас есть только модель и некоторые данные. Нет необходимости отделять предшествующую информацию от модели Кроме …

2
Почему Lasso или ElasticNet работают лучше, чем Ridge, когда функции взаимосвязаны
У меня есть набор из 150 функций, и многие из них тесно связаны друг с другом. Моя цель - предсказать значение дискретной переменной, диапазон которой составляет 1-8 . Мой размер выборки 550 , и я использую 10-кратную перекрестную проверку. AFAIK, среди методов регуляризации (Lasso, ElasticNet и Ridge), Ridge более строг …

1
Почему «расслабленное лассо» отличается от стандартного лассо?
Если мы начнем с набора данных , применим к нему Лассо и получим решение , мы можем снова применить Лассо к набору данных , где - это набор ноль индексов , чтобы получить решение, , называемое «расслабленным решением LASSO» (поправьте меня, если я ошибаюсь!). Решение должно удовлетворять условиям Каруша-Куна-Такера (KKT) …

1
Каков типичный диапазон возможных значений параметра усадки в штрафной регрессии?
В регрессии лассо или гребня необходимо указать параметр сжатия, часто называемый или . Это значение часто выбирается путем перекрестной проверки путем проверки множества различных значений на обучающих данных и определения того, какое из них дает наилучший результат, например, на тестовых данных. Какой диапазон значений следует проверить? Это ?λλ\lambdaαα\alphaр2р2R^2( 0 , …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.