Вопросы с тегом «shrinkage»

Включение дополнительных ограничений (обычно штраф за сложность) в процесс подбора модели. Используется для предотвращения переобучения / повышения точности прогнозирования.


5
Единый взгляд на усадку: какова связь (если таковая имеется) между парадоксом Штейна, регрессией гребня и случайными эффектами в смешанных моделях?
Рассмотрим следующие три явления. Парадокс Штейна: учитывая некоторые данные из многомерного нормального распределения в Rn,n≥3Rn,n≥3\mathbb R^n, \: n\ge 3 , среднее значение выборки не очень хорошая оценка истинного среднего. Можно получить оценку с меньшей среднеквадратичной ошибкой, если уменьшить все координаты среднего значения выборки до нуля [или в сторону их среднего …

5
Какую проблему решают методы усадки?
Курортный сезон дал мне возможность свернуться калачиком рядом с огнем вместе с «Элементами статистического обучения» . Исходя из (часто) точки зрения эконометрики, у меня возникают проблемы с пониманием использования методов усадки, таких как регрессия гребня, лассо и регрессия с наименьшим углом (LAR). Как правило, меня интересуют оценки параметров самих себя …

3
Почему оценка гребня становится лучше, чем OLS, добавляя константу к диагонали?
Я понимаю, что оценка регрессии гребня является ββ\beta который минимизирует остаточную сумму квадрата и штраф на размер ββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] Однако я не до конца понимаю значение того факта, что βridgeβridge\beta_\text{ridge} отличается от βOLSβOLS\beta_\text{OLS} только добавлением небольшой константы к диагонали …

2
Почему усадка работает?
Чтобы решить проблемы выбора модели, ряд методов (LASSO, гребневая регрессия и т. Д.) Будут сжимать коэффициенты переменных-предикторов к нулю. Я ищу интуитивное объяснение того, почему это улучшает способность к прогнозированию. Если истинное влияние переменной на самом деле было очень велико, почему сокращение параметра не приводит к худшему прогнозу?

6
Является ли регрессия гребня бесполезной в больших размерах (
Рассмотрим старую добрую регрессионную проблему с pпp предикторами и размером выборки . Обычная мудрость заключается в том, что оценщик OLS будет более подходящим и, как правило, будет превосходить оценщик регрессии гребня:Стандартно используется перекрестная проверка для нахождения оптимального параметра регуляризации . Здесь я использую 10-кратное резюме. Уточнение уточнения: когда , под …

2
Что такое скорректированная формула R-квадрата в lm в R и как ее следует интерпретировать?
Какая точная формула используется в R lm() для Скорректированного R-квадрата? Как я могу интерпретировать это? Скорректированные R-квадрат формулы Кажется, существует несколько формул для расчета скорректированного R-квадрата. Формула Вери:1−(1−R2)(n−1)(n−v)1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} Формула Макнемара:1−(1−R2)(n−1)(n−v−1)1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} Формула Господа:1−(1−R2)(n+v−1)(n−v−1)1−(1−R2)(n+v−1)(n−v−1)1-(1-R^2)\frac{(n+v-1)}{(n-v-1)} Формула Штейна:1 - [(n−1)( н−k−1)(n−2)( n -k−2)(n+1)n](1−R2)1−[(n−1)(N-К-1)(N-2)(N-К-2)(N+1)N](1-р2)1-\big[\frac{(n-1)}{(n-k-1)}\frac{(n-2)}{(n-k-2)}\frac{(n+1)}{n}\big](1-R^2) Описание учебников Согласно учебнику Филда « Обнаружение статистики с использованием R» …

2
Стандартизация до Лассо действительно необходима?
Я прочитал три основные причины стандартизации переменных, прежде чем что-то вроде Lassoрегрессии: 1) Интерпретируемость коэффициентов. 2) Возможность ранжировать важность коэффициента по относительной величине оценок коэффициента после усадки. 3) Нет необходимости перехватывать. Но меня интересует самый важный момент. Есть ли у нас основания полагать, что стандартизация улучшит обобщение модели вне выборки? …

1
Почему glmnet использует «наивную» эластичную сетку из оригинальной бумаги Zou & Hastie?
L=1n∥∥y−Xβ∥∥2+λ1∥β∥1+λ2∥β∥22,L=1n‖y−Xβ‖2+λ1‖β‖1+λ2‖β‖22,\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + \lambda_2 \lVert \beta\rVert^2_2,β^∗=(1+λ2)β^.β^∗=(1+λ2)β^.\hat\beta^* = (1+\lambda_2)\hat\beta. Однако в следующей glmnetстатье Friedman, Hastie & Tibshirani (2010) пути регуляризации для обобщенных линейных моделей с помощью координатного спуска не использовали этот масштаб и использовали только краткую сноску Zou и Hastie (2005) назвали это …

2
Преимущества двойного лассо или двойного лассо?
Однажды я слышал метод использования лассо дважды (например, двойное лассо), когда вы выполняете лассо на исходном наборе переменных, скажем, S1, получаете разреженный набор с именем S2, а затем снова выполняете лассо на множестве S2, чтобы получить множество S3. , Есть ли методологический термин для этого? Кроме того, каковы преимущества выполнения …

3
LASSO с терминами взаимодействия - это нормально, если основные эффекты сведены к нулю?
Регрессия LASSO сокращает коэффициенты до нуля, тем самым обеспечивая эффективный выбор модели. Я считаю, что в моих данных есть значимые взаимодействия между номинальными и непрерывными ковариатами. Однако не обязательно, чтобы «основные эффекты» истинной модели были значимыми (отличными от нуля). Конечно, я не знаю этого, поскольку истинная модель неизвестна. Мои цели …

5
Причина не сокращения срока смещения (перехвата) в регрессии
Для линейной модели y=β0+xβ+εYзнак равноβ0+Иксβ+εy=\beta_0+x\beta+\varepsilon сжимающий член всегда равен P(β)п(β)P(\beta) . В чем причина того, что мы не уменьшаем смещение (перехват) члена β0β0\beta_0 ? Должны ли мы сократить срок смещения в моделях нейронных сетей?

4
Каковы правильные значения для точности и отзыва в крайних случаях?
Точность определяется как: p = true positives / (true positives + false positives) Является ли это исправить , что, как true positivesи false positivesподход 0, точность приближается к 1? Тот же вопрос для отзыва: r = true positives / (true positives + false negatives) В настоящее время я выполняю статистический …
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

1
Почему оценку Джеймса-Стейна называют оценкой «усадки»?
Я читал об оценке Джеймса-Стейна. В этих примечаниях определяется как θ^=(1−p−2∥X∥2)Xθ^=(1−p−2‖X‖2)X \hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X Я прочитал доказательство, но я не понимаю следующее утверждение: Геометрически оценка Джеймса – Стейна сжимает каждый компонент XXX направлении начала координат ... Что точно означает «сжимает каждый компонент XXX направлении источника»? Я думал о чем-то вроде …

2
Оценка Джеймса-Стейна: Как Эфрон и Моррис вычислили в коэффициенте усадки для своего примера бейсбола?
У меня есть вопрос о расчете коэффициента усадки Джеймса-Стейна в 1977 году в журнале Scientific American Брэдли Эфрона и Карла Морриса «Парадокс Штейна в статистике» . Я собрал данные для бейсболистов, и они приведены ниже: Name, avg45, avgSeason Clemente, 0.400, 0.346 Robinson, 0.378, 0.298 Howard, 0.356, 0.276 Johnstone, 0.333, 0.222 …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.