Вопросы с тегом «regularization»

Включение дополнительных ограничений (обычно штраф за сложность) в процесс подбора модели. Используется для предотвращения переобучения / повышения точности прогнозирования.

5
Хребет & ЛАССО норм
Этот пост следует за этим: Почему оценка гребня становится лучше, чем OLS, добавляя константу к диагонали? Вот мой вопрос: Насколько я знаю, в регуляризации хребта используется (евклидово расстояние). Но почему мы используем квадрат этой нормы? (прямое применение приведет к получению квадратного корня от суммы квадрата бета).ℓ 2ℓ2ℓ2\ell_2ℓ2ℓ2\ell_2 Для сравнения, мы …

1
Что нормы и как они относятся к регуляризации?
В последнее время я видел много статей о разреженных представлениях, и большинство из них используют норму и выполняют некоторую минимизацию. Мой вопрос: что норма и смешанная норма? И как они имеют отношение к регуляризации?ℓ p ℓ p , qℓpℓp\ell_pℓpℓp\ell_pℓp,qℓp,q\ell_{p, q} благодаря

3
Как реализовать регуляризацию L2 к произвольной точке в пространстве?
Вот что я прочитал в книге Яна Гудфеллоу « Глубокое обучение» . В контексте нейронных сетей «штраф за норму параметра L2 обычно известен как затухание веса. Эта стратегия регуляризации приближает веса к началу координат [...]. В более общем смысле, мы могли бы упорядочить параметры, чтобы они были вблизи любой конкретной …

2
Является ли коэффициент ошибок выпуклой функцией лямбда-параметра регуляризации?
При выборе параметра регуляризации лямбда в Ridge или Lasso рекомендуется использовать разные значения лямбды, измерить ошибку в наборе валидации и, наконец, выбрать то значение лямбды, которое возвращает наименьшую ошибку. Мне не понятно, если функция f (лямбда) = error является выпуклой. Может ли быть так? Т.е. эта кривая может иметь более …

3
Могут ли (должны?) Методы регуляризации использоваться в модели случайных эффектов?
Под методами регуляризации я имею в виду лассо, ребристую регрессию, эластичную сеть и тому подобное. Рассмотрим прогностическую модель данных здравоохранения, содержащую демографические и диагностические данные, где прогнозируется продолжительность пребывания в стационаре. Для некоторых людей есть несколько наблюдений LOS (то есть, более одного эпизода IP) в течение базового периода времени, которые …

4
Подгонка по лассо по координатному спуску: реализации с открытым исходным кодом? [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто в прошлом году . Какие реализации с открытым исходным кодом - на любом языке - существуют там, которые могут вычислять лассо-пути регуляризации для …

1
LASSO отношения между
Мое понимание регрессии LASSO заключается в том, что коэффициенты регрессии выбираются для решения проблемы минимизации: minβ∥y−Xβ∥22 s.t.∥β∥1≤tminβ‖y−Xβ‖22 s.t.‖β‖1≤t\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t На практике это делается с использованием множителя Лагранжа, что позволяет решить проблему minβ∥y−Xβ∥22+λ∥β∥1minβ‖y−Xβ‖22+λ‖β‖1\min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 Какая связь между …

2
Каковы некоторые из наиболее важных «ранних работ» по методам регуляризации?
В нескольких ответах, которые я видел, пользователи CrossValidated предлагают OP найти ранние статьи о Lasso, Ridge и Elastic Net. Для потомков, каковы основополагающие работы в Lasso, Ridge и Elastic Net?

1
Как Лассо масштабируется с размером матрицы дизайна?
Если у меня есть проектная матрица , где - число наблюдений измерения , какова сложность решения для с LASSO, без и ? Я думаю, что ответ должен относиться к тому, как масштабируется одна итерация LASSO с этими параметрами, а не к тому, как масштабируется количество итераций (сходимость), если вы не …

3
Что имеют в виду статистики, когда говорят, что мы не совсем понимаем, как работает LASSO (регуляризация)?
Недавно я принимал участие в нескольких обсуждениях статистики по Лассо (регуляризация), и постоянно поднимается вопрос: мы не очень понимаем, почему Лассо работает или почему он так хорошо работает. Мне интересно, к чему относится это утверждение. Очевидно, я понимаю, почему Лассо работает технически, путем предотвращения переоснащения путем сокращения параметров, но мне …

1
Репликация результатов для линейной регрессии glmnet с использованием универсального оптимизатора
Как говорится в заголовке, я пытаюсь воспроизвести результаты из glmnet linear, используя оптимизатор LBFGS из библиотеки lbfgs. Этот оптимизатор позволяет нам добавлять член регуляризатора L1, не беспокоясь о дифференцируемости, если наша целевая функция (без члена регуляризатора L1) выпуклая. minβ∈Rp12n∥β0+Xβ−y∥22+αλ∥β∥1+12(1−α)λ∥β∥22minβ∈Rp12n‖β0+Xβ−y‖22+αλ‖β‖1+12(1−α)λ‖β‖22\min_{\beta \in \mathbb{R}^p} \frac{1}{2n}\Vert \beta_0 + X\beta - y \Vert_2^2 + \alpha …

4
Редуцирующая регуляризация для стохастических матриц
Хорошо известно (например, в области измерения сжатия), что норма является «вызывающей разреженность» в том смысле, что если минимизировать функционал (для фиксированной матрицы и вектора ), для достаточно большого размера \ lambda> 0 , у многих вариантов A , \ vec {b} и \ lambda, вероятно, будет много точно нулевых записей …

2
Регуляризация нормы и нормы эмпирического исследования
Существует много способов выполнения регуляризации - например, регуляризация на основе норм , и . Согласно Friedman Hastie & Tibsharani , лучший регуляризатор зависит от проблемы: а именно от природы истинной целевой функции, конкретной используемой основы, отношения сигнал / шум и размера выборки.L0L0L_0L1L1L_1L2L2L_2 Есть ли эмпирические исследования, сравнивающие методы и эффективность …

4
Регуляризация: зачем умножать на 1 / 2м?
В неделю 3 - конспектов в классе Coursera Machine Learning Эндрю Нг , термин добавляется к функции стоимости реализации упорядочению: J+( θ ) = J( θ ) + λ2 мΣJ = 1Nθ2JJ+(θ)знак равноJ(θ)+λ2мΣJзнак равно1NθJ2J^+(\theta) = J(\theta) + \frac{\lambda}{2m} \sum_{j=1}^n \theta_j^2 В примечаниях к лекции говорится: Мы также можем упорядочить все …

1
RNN с L2 Regularization перестает учиться
Я использую Двунаправленный RNN, чтобы обнаружить случай несбалансированного события. Положительный класс в 100 раз реже, чем отрицательный. Пока не используется регуляризация, я могу получить 100% точность в наборе поездов и 30% в наборе проверки. Я включаю регуляризацию l2, и в результате получается набор только для 30% точности набора поездов вместо …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.