Вопросы с тегом «regression»

Методы анализа взаимосвязи между одной (или несколькими) «зависимыми» переменными и «независимыми» переменными.

5
Является ли это мошенничеством, чтобы отбросить выбросы, основанные на диаграмме средней абсолютной ошибки, чтобы улучшить регрессионную модель
У меня есть модель прогнозирования, протестированная четырьмя методами, как вы можете видеть на рисунке ниже. Атрибут, который предсказывает модель, находится в диапазоне 0-8. Вы можете заметить, что во всех методах указаны один выброс верхней границы и три выброса нижней границы . Интересно, уместно ли удалять эти экземпляры из данных? Или …

1
Беспристрастная оценка отношения двух коэффициентов регрессии?
Предположим, вы подходите к линейной / логистической регрессии с целью объективной оценки . Вы очень уверены, что и очень положительны по отношению к шуму в своих оценках.g(y)=a0+a1⋅x1+a2⋅x2g(y)=a0+a1⋅x1+a2⋅x2g(y) = a_0 + a_1\cdot x_1 + a_2\cdot x_2a1a2a1a2\frac{a_1}{a_2}a1a1a_1a2a2a_2 Если у вас есть общая ковариация , вы можете рассчитать или, по крайней мере, смоделировать …

4
Точность градиентной машины уменьшается с увеличением числа итераций
Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
Понимание QR-разложения
У меня есть рабочий пример (в R), который я пытаюсь понять дальше. Я использую Limma для создания линейной модели, и я пытаюсь понять, что происходит шаг за шагом в вычислениях кратного изменения. Я в основном пытаюсь выяснить, что происходит для расчета коэффициентов. Из того, что я могу выяснить, QR-декомпозиция используется …

1
Другие несмещенные оценки, чем СИНИЙ (решение OLS) для линейных моделей
Для линейной модели решение OLS обеспечивает наилучшую линейную несмещенную оценку параметров. Конечно, мы можем обменять смещение на более низкую дисперсию, например, на регрессию гребня. Но мой вопрос касается отсутствия предвзятости. Существуют ли какие-либо другие оценщики, которые обычно используются, которые являются несмещенными, но с большей дисперсией, чем оценочные параметры OLS? Если …

2
Вопрос о компромиссном отклонении
Я пытаюсь понять компромисс между отклонением оценки, отношением между отклонением оценки и отклонением модели, а также отношением между дисперсией оценки и дисперсией модели. Я пришел к этим выводам: Мы склонны переписывать данные, когда пренебрегаем смещением оценки, то есть когда мы стремимся минимизировать смещение модели, пренебрегая дисперсией модели (другими словами, мы …

1
Регрессия в настройке
Я пытаюсь понять, следует ли использовать регрессию гребня , LASSO , регрессию главных компонентов (PCR) или частичные наименьшие квадраты (PLS) в ситуации, когда имеется большое количество переменных / признаков ( ) и меньшее количество выборок ( ) и моя цель - прогноз.ппpп < рN<пn nр > 10 нп>10Np>10n Переменные ( …

3
Прогнозирование дисперсии гетероскедастических данных
Я пытаюсь сделать регрессию на гетероскедастических данных, где я пытаюсь предсказать отклонения ошибки, а также средние значения в терминах линейной модели. Что-то вроде этого: y(x,t)ξ(x,t)y¯(x,t)σ(x,t)=y¯(x,t)+ξ(x,t),∼N(0,σ(x,t)),=y0+ax+bt,=σ0+cx+dt.y(x,t)=y¯(x,t)+ξ(x,t),ξ(x,t)∼N(0,σ(x,t)),y¯(x,t)=y0+ax+bt,σ(x,t)=σ0+cx+dt.\begin{align}\\ y\left(x,t\right) &= \bar{y}\left(x,t\right)+\xi\left(x,t\right),\\ \xi\left(x,t\right) &\sim N\left(0,\sigma\left(x,t\right)\right),\\ \bar{y}\left(x,t\right) &= y_{0}+ax+bt,\\ \sigma\left(x,t\right) &= \sigma_{0}+cx+dt. \end{align} Словом, данные состоят из повторных измерений при различных значениях и . Я …

4
Подводные камни, которых следует избегать при преобразовании данных?
Я добился прочной линейной взаимосвязи между моей переменной XXX и YYY после двукратного преобразования ответа. Модель была Y∼XY∼XY\sim X но я преобразовал ее в YX−−√∼X−−√YX∼X\sqrt{\frac{Y}{X}}\sim \sqrt{X} улучшилR2R2R^2с .19 до .76. Очевидно, я сделал приличную операцию на этих отношениях. Может ли кто-нибудь обсудить подводные камни, связанные с этим, такие как опасность …

1
Какова интуиция за сменными образцами при нулевой гипотезе?
Тесты перестановки (также называемые тестом рандомизации, тестом повторной рандомизации или точным тестом) очень полезны и оказываются полезными, когда предположение о нормальном распределении, требуемое, например, t-testне выполняется, и когда преобразование значений путем ранжирования непараметрическое тестирование, как, Mann-Whitney-U-testможет привести к потере большего количества информации. Тем не менее, одно и только одно предположение …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

4
Как выполнить регрессию для ненормальных данных, которые остаются ненормальными при преобразовании?
У меня есть некоторые данные (158 случаев), которые были получены из ответа по шкале Лайкерта на 21 вопросник. Я действительно хочу / нужно провести регрессионный анализ, чтобы увидеть, какие пункты в анкете предсказывают реакцию на общий элемент (удовлетворенность). Ответы обычно не распределяются (в соответствии с тестами KS), и я преобразовал …

2
Точное значение и сравнение между влиятельной точкой, точкой высокого плеча и выбросом?
Из Википедии Влиятельные наблюдения - это те наблюдения, которые относительно сильно влияют на прогнозы регрессионной модели. Из Википедии Точки воздействия - это те наблюдения, если таковые имеются, сделанные при экстремальных или внешних значениях независимых переменных, так что отсутствие соседних наблюдений означает, что подобранная модель регрессии пройдет близко к этому конкретному …

1
Как интерпретировать коэффициенты из бета-регрессии?
У меня есть некоторые данные, которые ограничены между 0 и 1. Я использовал betaregпакет в R, чтобы подогнать регрессионную модель с ограниченными данными в качестве зависимой переменной. У меня вопрос: как мне интерпретировать коэффициенты из регрессии?


3
Почему скорректированный R-квадрат меньше, чем R-квадрат, если скорректированный R-квадрат лучше предсказывает модель?
Насколько я понимаю, объясняет, насколько хорошо модель предсказывает наблюдение. Скорректированный - это тот, который учитывает больше наблюдений (или степеней свободы). Итак, Скорректированный предсказывает модель лучше? Тогда почему это меньше, чем ? Похоже, что часто должно быть больше.R2R2R^2R2R2R^2R2R2R^2R2R2R^2

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.