Статистика и большие данные multiple-regression

1

R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и ti(x1) + ti(x2) + ti(x1, x2)может дать (немного) разные результаты. MWE …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

Что на самом деле вычисляет формула y ~ x + 0 в R?

Какова статистическая разница между выполнением линейной регрессии в R с formulaнабором y ~ x + 0вместо y ~ x? Как мне интерпретировать эти два разных результата?

11 multiple-regression generalized-linear-model intercept

2

Как выполнить остаточный анализ для бинарных / дихотомических независимых предикторов в линейной регрессии?

Я выполняю множественную линейную регрессию ниже в R, чтобы предсказать доходность управляемого фонда. reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) Здесь только GRI и MBA являются бинарными / дихотомическими предикторами; остальные предикторы являются непрерывными. Я использую этот код для генерации остаточных графиков для двоичных переменных. plot(rawdata$GRI, reg$residuals) abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line …

11 r multiple-regression categorical-data heteroscedasticity residuals

4

Диагональные прямые в графике остатков и подгоночных значений для множественной регрессии

Я наблюдаю странные закономерности в остатках для моих данных: [EDIT] Вот графики частичной регрессии для двух переменных: [EDIT2] Добавлен график PP Распределение, кажется, работает хорошо (см. Ниже), но я понятия не имею, откуда может идти эта прямая линия. Любые идеи? [ОБНОВЛЕНИЕ 31.07] Оказывается, вы были абсолютно правы, у меня были …

11 regression multiple-regression residuals diagnostic

3

Зачем использовать возраст в квадрате в качестве ковариации в исследовании генетической ассоциации?

Зачем использовать возраст и квадрат в качестве ковариат в исследовании генетической ассоциации? Я могу понять использование возраста, если он был определен как значимый ковариат, но я не знаю, как использовать возраст в квадрате.

11 multiple-regression polynomial predictor bioinformatics genetics

3

Проблемы с горячим кодированием и фиктивным кодированием

Мне известен тот факт, что категориальные переменные с k уровнями должны кодироваться с помощью k-1 переменных в фиктивном кодировании (аналогично для многозначных категориальных переменных). Мне было интересно, сколько проблем делает одноразовое кодирование (то есть использование вместо этого k переменных) вместо фиктивного кодирования для различных методов регрессии, в основном, линейной регрессии, …

11 regression multiple-regression categorical-data many-categories

2

B-Сплайны В. С. Полиномы высокого порядка в регрессии

У меня нет конкретного примера или задачи. Я просто новичок в использовании b-сплайнов, и я хотел лучше понять эту функцию в контексте регрессии. Давайте предположим, что мы хотим оценить взаимосвязь между переменной ответа и некоторыми предикторами . Предикторы включают некоторые числовые переменные, а также некоторые категориальные.YYyИкс1, х2, . , , …

10 regression multiple-regression splines polynomial penalized

2

Условная средняя независимость подразумевает объективность и непротиворечивость оценки МНК.

Рассмотрим следующую модель множественной регрессии: Y=Xβ+Zδ+U.(1)(1)Y=Xβ+Zδ+U.Y=X\beta+Z\delta+U.\tag{1} Здесь YYY - вектор столбца n×1n×1n\times 1 ; Матрица XXX a n×(k+1)n×(k+1)n\times (k+1) ; ββ\beta a (k+1)×1(k+1)×1(k+1)\times 1 вектор-столбец; Матрица ZZZ a n×ln×ln\times l ; δδ\deltal×1l×1l\times 1 вектор - столбец; и UUU - член ошибки, вектор столбца n×1n×1n\times1 . ВОПРОС Мой преподаватель, учебник Введение …

10 regression multiple-regression econometrics least-squares nonlinear-regression

1

Разъяснения относительно чтения номограммы

Ниже приведена номограмма, созданная из набора данных mtcars с пакетом rms для формулы: mpg ~ wt + am + qsec Сама модель кажется хорошей с R2 0,85 и P <0,00001 > mod Linear Regression Model ols(formula = mpg ~ wt + am + qsec, data = mtcars) Model Likelihood Discrimination …

10 regression multiple-regression data-visualization predictive-models regression-strategies

2

Как получить таблицу ANOVA с устойчивыми стандартными ошибками?

Я запускаю объединенную регрессию OLS с использованием пакета plm в R. Хотя мой вопрос больше относится к базовой статистике, поэтому я постараюсь сначала опубликовать ее здесь;) Так как мои результаты регрессии дают гетероскедастические остатки, я хотел бы попробовать использовать устойчивые стандартные ошибки гетероскедастичности. В результате coeftest(mod, vcov.=vcovHC(mod, type="HC0"))я получаю таблицу, …

10 r anova multiple-regression heteroscedasticity robust-standard-error

3

Линейная связь между объясняющими переменными в множественной регрессии

Я читал главу о множественной регрессии « Анализ данных и графика с использованием R: подход на основе примеров» и был немного озадачен, обнаружив, что он рекомендует проверять линейные отношения между объясняющими переменными (используя диаграмму рассеяния) и, в случае отсутствия ' т любой, превращая их таким образом , они действительно становятся …

10 multiple-regression multicollinearity

2

множественная регрессия и множественные сравнения

Скажем, я подхожу для множественной регрессии p объясняющих переменных. T-тест позволит мне проверить, является ли какой-либо один из них значимым ( ). Я могу сделать частичный F-тест, чтобы проверить, является ли какое-то их подмножество значимым ( ).H 0 : β i = β j = . , , = β …

10 multiple-regression multiple-comparisons

1

Почему Anova () и drop1 () предоставили разные ответы для GLMM?

У меня есть GLMM формы: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Когда я использую drop1(model, test="Chi"), я получаю другие результаты, чем если бы я использовал Anova(model, type="III")из пакета автомобиля или summary(model). Последние два дают одинаковые ответы. Используя кучу сфабрикованных данных, я обнаружил, …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

4

Зачем использовать контрольные переменные в различиях?

У меня есть вопрос о подходе «различия в различиях» со следующим стандартным уравнением: где Treat - фиктивная переменная для группы лечения и post. y=a+b1treat+b2post+b3treat⋅post+uy=a+b1treat+b2post+b3treat⋅post+u y= a + b_1\text{treat}+ b_2\text{post} + b_3\text{treat}\cdot\text{post} + u Теперь мой вопрос прост: почему в большинстве статей все еще используются дополнительные контрольные переменные? Я думал, что …

10 regression multiple-regression causality

1

Есть ли обобщение следа Пиллая и следа Хотеллинга-Лоули?

В условиях многомерной множественной регрессии (векторный регрессор и регрессия) четыре основных критерия общей гипотезы (лямбда Вилка, Пиллаи-Бартлетт, Хотеллинг-Лоули и самый большой корень Роя) зависят от собственных значений матрицы , где H и E - «объясненная» и «общая» вариационные матрицы.HE−1HE−1H E^{-1}HHHEEE Я заметил , что ПИЛЛАИ и Хотеллинг-Lawley статистические данные могут …

10 regression multiple-regression multivariate-analysis manova

Вопросы с тегом «multiple-regression»