Вопросы с тегом «regularization»

Включение дополнительных ограничений (обычно штраф за сложность) в процесс подбора модели. Используется для предотвращения переобучения / повышения точности прогнозирования.

1
Необходимость центрирования и стандартизации данных в регрессии
Рассмотрим линейную регрессию с некоторой регуляризацией: например, найдите который минимизируетxИксx||Ax−b||2+λ||x||1||Ax−b||2+λ||x||1||Ax - b||^2+\lambda||x||_1 Обычно столбцы A стандартизированы, чтобы иметь нулевое среднее и единичную норму, тогда как центрируется, чтобы иметь нулевое среднее. Я хочу убедиться в правильности моего понимания причины стандартизации и центрирования.bbb Обнуляя значения столбцов и , мы больше не нуждаемся …

2
Почему потеря нормы L2 имеет единственное решение, а потеря нормы L1 может иметь несколько решений?
http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/ Если вы посмотрите на верхнюю часть этого поста, автор упомянет, что норма L2 имеет уникальное решение, а норма L1, возможно, имеет много решений. Я понимаю это с точки зрения регуляризации, но не с точки зрения использования нормы L1 или нормы L2 в функции потерь. Если вы посмотрите на графики …

2
Почему усадка действительно работает, что такого особенного в 0?
На этом сайте уже есть пост, посвященный той же проблеме: почему работает усадка? Но, хотя ответы и популярны, я не верю, что суть вопроса действительно решена. Совершенно очевидно, что введение некоторого смещения в оценку приводит к снижению дисперсии и может улучшить качество оценки. Тем не мение: 1) Почему ущерб, нанесенный …

1
Регуляризация для моделей ARIMA
Я знаю о регуляризации типа LASSO, гребня и эластичной сетки в моделях линейной регрессии. Вопрос: Можно ли применить этот (или аналогичный) вид штрафных оценок к моделированию ARIMA (с непустой частью MA)? При построении моделей ARIMA кажется обычным рассмотреть предварительно выбранный максимальный порядок задержки ( , ), а затем выбрать оптимальный …

4
Доказательство эквивалентных формул гребневой регрессии
Я прочитал самые популярные книги в области статистического обучения 1- Элементы статистического обучения. 2- Введение в статистическое обучение . Оба упоминают, что у регрессии гребня есть две формулы, которые эквивалентны. Есть ли понятное математическое доказательство этого результата? Я также прошел Cross Validated , но я не могу найти однозначного доказательства …

3
Регуляризация и масштабирование функций в онлайн-обучении?
Допустим, у меня есть классификатор логистической регрессии. В обычном пакетном обучении я бы использовал термин регуляризатор, чтобы предотвратить переоснащение и сохранить вес небольшим. Я также нормализую и масштабирую свои функции. В режиме онлайн обучения я получаю непрерывный поток данных. Я делаю обновление градиентного спуска с каждым примером и затем отбрасываю …

1
Какой метод множественного сравнения использовать для модели lmer: lsmeans или glht?
Я анализирую набор данных, используя модель смешанных эффектов с одним фиксированным эффектом (условием) и двумя случайными эффектами (участник из-за дизайна объекта и пары). Модель была сгенерирована с lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Затем я выполнил тест отношения правдоподобия этой модели по сравнению с моделью без фиксированного эффекта (условия) и получил значительную разницу. В …

1
Какое наименьшее
β^λ=argminβ∈Rp12n∥y−Xβ∥22+λ∥β∥1,β^λ=arg⁡minβ∈Rp12n‖y−Xβ‖22+λ‖β‖1,\hat\beta^\lambda = \arg\min_{\beta \in \mathbb{R}^p} \frac{1}{2n} \|y - X \beta\|_2^2 + \lambda \|\beta\|_1,ithithi^{th}xi∈Rpxi∈Rpx_i \in \mathbb{R}^pX∈Rn×pX∈Rn×pX \in \mathbb{R}^{n \times p}yiyiy_ii=1,…ni=1,…ni=1, \dots n Мы знаем, что для λ≥1n∥XTy∥∞λ≥1n‖XTy‖∞\lambda \geq \frac{1}{n} \|X^T y\|_\infty , оценка Лассо β^λ=0β^λ=0\hat\beta^\lambda = 0 . (См., Например, область настройки параметров Лассо и Риджа .) В других обозначениях это …


4
Отсутствие условия регуляризации для единицы смещения в нейронной сети
Согласно этому руководству по глубокому обучению , снижение веса (регуляризация) обычно не применяется к терминам смещения b, почему? Какое значение (интуиция) стоит за этим?

4
Нормы - Что особенного в?
норма является уникальной (по крайней мере частично) , потому что находится на границе между невыпуклые и выпуклы. норма является «наиболее разреженным» выпуклая норма (правда?).L1L1L_1p=1p=1p=1L1L1L_1 Я понимаю, что евклидова норма имеет корни в геометрии и имеет четкую интерпретацию, когда измерения имеют одинаковые единицы. Но я не понимаю, почему он используется преимущественно …

1
Решение замкнутой формы задачи Лассо, когда матрица данных диагональна
\newcommand{\diag}{\operatorname{diag}} У нас проблема: при условии, что: \ sum_ {я = 1} ^ nx_ix_i ^ T = \ диаг (\ sigma_1 ^ 2, ..., \ sigma_d ^ 2).minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right),∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag⁡(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). Есть ли в этом случае решение в замкнутой форме? У меня есть это: (XTX)−1=diag(σ−21,...,σ−2d),(XTX)−1=diag⁡(σ1−2,...,σd−2),(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right), и поэтому …

1
Предотвращение перенастройки LSTM на небольшой набор данных
Я моделирую 15000 твитов для прогнозирования настроений, используя однослойный LSTM со 128 скрытыми единицами, используя word2vec-подобное представление с 80 измерениями. Я получаю точность снижения (38% со случайным = 20%) после 1 эпохи. Большее количество тренировок приводит к тому, что точность проверки начинает снижаться, когда точность обучения начинает расти - явный …

1
Смещение дисперсии
В разделе 3.2 Бишопа «Распознавание образов и машинное обучение» он обсуждает разложение смещения дисперсии, утверждая, что для квадрата функции потерь ожидаемая потеря может быть разложена на квадрат смещения (который описывает, насколько средние прогнозы далеки от истинных модель), дисперсионный термин (который описывает разброс прогнозов вокруг среднего) и шумовой термин (который дает …

1
Регуляризованная байесовская логистическая регрессия в JAGS
Есть несколько математических работ, описывающих байесовское лассо, но я хочу протестировать правильный код JAGS, который я могу использовать. Может ли кто-нибудь опубликовать пример кода BUGS / JAGS, который реализует регуляризованную логистическую регрессию? Любая схема (L1, L2, Elasticnet) была бы отличной, но Лассо предпочтительнее. Мне также интересно, есть ли интересные альтернативные …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.