Вопросы с тегом «regularization»

Включение дополнительных ограничений (обычно штраф за сложность) в процесс подбора модели. Используется для предотвращения переобучения / повышения точности прогнозирования.

1
Почему glmnet использует «наивную» эластичную сетку из оригинальной бумаги Zou & Hastie?
L=1n∥∥y−Xβ∥∥2+λ1∥β∥1+λ2∥β∥22,L=1n‖y−Xβ‖2+λ1‖β‖1+λ2‖β‖22,\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + \lambda_2 \lVert \beta\rVert^2_2,β^∗=(1+λ2)β^.β^∗=(1+λ2)β^.\hat\beta^* = (1+\lambda_2)\hat\beta. Однако в следующей glmnetстатье Friedman, Hastie & Tibshirani (2010) пути регуляризации для обобщенных линейных моделей с помощью координатного спуска не использовали этот масштаб и использовали только краткую сноску Zou и Hastie (2005) назвали это …

3
Происхождение термина «регуляризация»
Когда я знакомлю студентов с концепциями, мне часто бывает весело рассказывать им о происхождении терминологии (например, «регрессия» - это термин с интересным происхождением). Я не смог открыть историю / историю термина «регуляризация» в статистическом / машинном обучении. Итак, каково происхождение термина регуляризация ?

2
Почему штраф Лассо эквивалентен двойному экспоненциальному (Лапласу) ранее?
В ряде ссылок я читал, что оценка Лассо для вектора параметра регрессии эквивалентна апостериорной моде в которой предыдущее распределение для каждого является двойным экспоненциальным распределением (также известным как распределение Лапласа).BBBBBBBiBiB_i Я пытался доказать это, кто-то может конкретизировать детали?

6
Почему меньшие веса приводят к упрощению моделей в регуляризации?
Я закончил курс по машинному обучению Эндрю Нг около года назад, и сейчас я пишу свои исследования по математике в старших классах по методам логистической регрессии и методам оптимизации производительности. Одним из таких методов является, конечно, регуляризация. Целью регуляризации является предотвращение переоснащения путем расширения функции стоимости, чтобы включить цель простоты …

2
Преимущества двойного лассо или двойного лассо?
Однажды я слышал метод использования лассо дважды (например, двойное лассо), когда вы выполняете лассо на исходном наборе переменных, скажем, S1, получаете разреженный набор с именем S2, а затем снова выполняете лассо на множестве S2, чтобы получить множество S3. , Есть ли методологический термин для этого? Кроме того, каковы преимущества выполнения …

3
Зачем использовать оценки Лассо над оценками OLS для Лассо-идентифицированного подмножества переменных?
Для регрессии Лассо предположим что лучшее решение (например, минимальная ошибка тестирования) выбирает k функций, так что \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 …

5
Как главные главные компоненты могут сохранять предсказательную силу зависимой переменной (или даже приводить к лучшим прогнозам)?
Предположим , что я бегу регрессию . Почему, выбирая главные основных компонентов X , модель сохраняет свою предсказательную силу на Y ?k X YY∼ XY~ИксY \sim XККkИксИксXYYY Я понимаю, что с точки зрения уменьшения размерности / выбора признаков, если v1, v2, . , , vКv1,v2,,,,vКv_1, v_2, ... v_k являются собственными …

3
Интерпретация регуляризации гребня в регрессии
У меня есть несколько вопросов, касающихся штрафа за ребро в контексте наименьших квадратов: βR i Dге= ( λ ID+ X'Икс)- 1Икс'Yβряdгезнак равно(λяD+Икс'Икс)-1Икс'Y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) Выражение предполагает, что ковариационная матрица X сжимается в сторону диагональной матрицы, означая, что (при условии, что переменные стандартизируются до процедуры) корреляция между …

2
Есть ли смысл объединять PCA и LDA?
Предположим, у меня есть набор данных для контролируемой статистической задачи классификации, например, через байесовский классификатор. Этот набор данных состоит из 20 функций, и я хочу свести его к 2 функциям с помощью методов уменьшения размерности, таких как анализ основных компонентов (PCA) и / или линейный дискриминантный анализ (LDA). Оба метода …

4
Регрессия L1 оценивает медиану, тогда как регрессия L2 означает?
Поэтому мне был задан вопрос, по каким оценкам центральные меры L1 (т.е. лассо) и L2 (т.е. регрессия гребня). Ответ L1 = медиана и L2 = среднее. Есть ли интуитивные рассуждения об этом? Или это должно быть определено алгебраически? Если да, то как мне это сделать?

2
Почему лямбда «в пределах одной стандартной ошибки от минимума» является рекомендованным значением для лямбда в упругой чистой регрессии?
Я понимаю, какую роль играет лямбда в регрессии эластичной сети. И я могу понять, почему можно выбрать lambda.min, значение лямбды, которое минимизирует перекрестную проверку. Мой вопрос: где в статистической литературе рекомендуется использовать lambda.1se, то есть значение lambda, которое минимизирует ошибку CV плюс одну стандартную ошибку ? Кажется, я не могу …

2
Почему Laplace ранее производил разреженные решения?
Я просматривал литературу по регуляризации, и часто вижу абзацы, которые связывают регуляризацию L2 с априорным гауссианом и L1 с Лапласом с центром в нуле. Я знаю, как выглядят эти априорные значения, но я не понимаю, как это выражается, например, в весах в линейной модели. В L1, если я правильно понимаю, …

1
Мостовой штраф против упругой регуляризации
Некоторые штрафные функции и аппроксимации хорошо изучены, такие как LASSO ( L1L1L_1 ) и Ридж ( L2L2L_2 ) и их сравнение в регрессии. ∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma}γ=1γ=1\gamma = 1γ=2γ=2\gamma = 2 Вэньцзян [ 1 ] сравнил штраф Бриджа, когда с LASSO, но я не смог найти сравнение с регуляризацией Elastic Net, комбинацией …

2
Что такое «регрессия пониженного ранга»?
Я читал «Элементы статистического обучения» и не мог понять, что такое раздел 3.7 «Сжатие и выбор нескольких результатов». В нем говорится о RRR (регрессии пониженного ранга), и я могу только понять, что предпосылка заключается в обобщенной многомерной линейной модели, в которой коэффициенты неизвестны (и должны оцениваться), но известно, что они …

3
Почему Lars и Glmnet предлагают разные решения проблемы Лассо?
Я хочу лучше понять пакеты R Larsи Glmnet, которые используются для решения проблемы Лассо: (для переменных и выборок, см. www.stanford.edu/~hastie/Papers/glmnet.pdf на стр. 3)м я н( β0β) ∈ Rр + 1[ 12 NΣя = 1N( уя- β0- хTяβ)2+ λ | |β| |L1]мяN(β0β)∈рп+1[12NΣязнак равно1N(Yя-β0-ИксяTβ)2+λ||β||L1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta ||_{l_{1}} \right]ппpNNN …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.