Статистика и большие данные regression

3

Смещение, зависящее от распределения ответов при случайной регрессии леса

Я использую пакет randomForest в R (R версия 2.13.1, randomForest версия 4.6-2) для регрессии и заметил значительный сдвиг в моих результатах: ошибка прогнозирования зависит от значения переменной отклика. Высокие значения недооценены, а низкие значения переоценены. Сначала я подозревал, что это было следствием моих данных, но следующий простой пример предполагает, что …

9 r regression random-forest

2

Параметрический, полупараметрический и непараметрический бутстрап для смешанных моделей

Следующие прививки взяты из этой статьи . Я новичок в начальной загрузке и пытаюсь реализовать параметрическую, полупараметрическую и непараметрическую загрузку начальной загрузки для линейной смешанной модели с R bootпакетом. Код R Вот мой Rкод: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) …

9 r mixed-model bootstrap central-limit-theorem stable-distribution time-series hypothesis-testing markov-process r correlation categorical-data association-measure meta-analysis r anova confidence-interval lm r bayesian multilevel-analysis logit regression logistic least-squares eda regression notation distributions random-variable expected-value distributions markov-process hidden-markov-model r variance group-differences microarray r descriptive-statistics machine-learning references r regression r categorical-data random-forest data-transformation data-visualization interactive-visualization binomial beta-distribution time-series forecasting logistic arima beta-regression r time-series seasonality large-data unevenly-spaced-time-series correlation statistical-significance normalization population group-differences demography

1

Множественная регрессия с отсутствующей переменной-предиктором

Предположим, нам дан набор данных в форме и . Нам дана задача прогнозирования на основе значений . Мы оцениваем две регрессии, где: ( y , x 1 , x 2 , ⋯ , x n - 1 ) y x y( у, х1, х2, ⋯ , хN)(Y,Икс1,Икс2,⋯,ИксN)(y,x_{1},x_{2},\cdots, x_{n})( у, х1, …

9 regression multiple-regression missing-data multicollinearity multiple-imputation

2

Использование регрессионной модели для прогнозирования: когда остановиться?

Я рассчитал простую модель линейной регрессии из моих экспериментальных мер, чтобы делать прогнозы. Я прочитал, что вы не должны рассчитывать прогнозы для точек, которые слишком далеко от доступных данных. Однако я не смог найти каких-либо указаний, которые бы помогли мне понять, как далеко я могу экстраполировать. Например, если я вычислю …

9 regression prediction

3

auto.arima предупреждает о появлении NaN при ошибке std

Мои данные - это временной ряд занятого населения, L, и временной интервал, год. n.auto=auto.arima(log(L),xreg=year) summary(n.auto) Series: log(L) ARIMA(2,0,2) with non-zero mean Coefficients: ar1 ar2 ma1 ma2 intercept year 1.9122 -0.9567 -0.3082 0.0254 -3.5904 0.0074 s.e. NaN NaN NaN NaN 1.6058 0.0008 sigma^2 estimated as 1.503e-06: log likelihood=107.55 AIC=-201.1 AICc=-192.49 BIC=-193.79 …

9 r regression arima

1

Как понять стандартизированный остаток в регрессионном анализе?

Согласно регрессионному анализу на примере , остаток представляет собой разницу между откликом и прогнозируемым значением, тогда говорят, что каждый остаток имеет различную дисперсию, поэтому нам нужно рассмотреть стандартизированные остатки. Но дисперсия относится к группе значений, как одно значение может иметь дисперсию?

9 regression residuals

1

Как я могу доказать, что данные эксперимента соответствуют распределению тяжелых хвостов?

У меня есть несколько результатов теста задержки ответа сервера. Согласно нашему теоретическому анализу, распределение задержки (функция распределения вероятности задержки ответа) должно иметь поведение с тяжелым хвостом. Но как я могу доказать, что результат теста соответствует распределению тяжелых хвостов?

9 regression distributions probability normal-distribution mathematical-statistics

4

Стандартные алгоритмы для выполнения иерархической линейной регрессии?

Существуют ли стандартные алгоритмы (в отличие от программ) для выполнения иерархической линейной регрессии? Люди обычно просто делают MCMC или есть более специализированные, возможно частично закрытые формы, алгоритмы?

9 regression bayesian multiple-regression multilevel-analysis irls

3

Взятие корреляции до или после лог-преобразования переменных

Существует ли общий принцип о том, следует ли вычислять корреляцию Пирсона для двух случайных величин X и Y перед выполнением их лог-преобразования или после? Есть ли процедура для проверки, которая более подходит? Они дают одинаковые, но разные значения, поскольку логарифмическое преобразование нелинейно. Зависит ли это от того, ближе ли X …

9 regression correlation logarithm pearson-r

4

Сокращение количества переменных в множественной регрессии

У меня есть большой набор данных, состоящий из значений нескольких сотен финансовых переменных, которые можно использовать в множественной регрессии для прогнозирования поведения индексного фонда во времени. Я хотел бы сократить число переменных до десяти или около того, сохраняя при этом как можно большую предсказательную силу. Добавлено: сокращенный набор переменных должен …

9 regression multivariate-analysis model-selection multiple-regression

2

Как подогнать регрессию типа

У меня есть данные временного ряда, где измеряемая переменная представляет собой дискретные положительные целые числа (числа). Я хочу проверить, есть ли тенденция со временем (или нет). Независимая переменная (x) находится в диапазоне 0-500, а зависимая переменная (y) находится в диапазоне 0-8. Я думал, что я отвечу на это, подгоняя регрессию …

9 r regression python

4

Как реализовать фиктивную переменную, используя n-1 переменные?

Если у меня есть переменная с 4 уровнями, теоретически мне нужно использовать 3 фиктивные переменные. На практике, как это на самом деле осуществляется? Я использую 0-3, я использую 1-3 и оставляю 4 пустыми? Какие-либо предложения? ПРИМЕЧАНИЕ: я собираюсь работать в R. ОБНОВЛЕНИЕ: Что случилось бы, если бы я только использовал …

9 r regression categorical-data categorical-encoding

1

Распределение обратного коэффициента регрессии

Предположим, что у нас есть линейная модель которая удовлетворяет всем стандартным предположениям регрессии (Гаусса-Маркова). Мы заинтересованы в . θ = 1 / β 1Yя= β0+ β1Икся+ ϵяYязнак равноβ0+β1Икся+εяy_i = \beta_0 + \beta_1 x_i + \epsilon_iθ = 1 / β1θзнак равно1/β1\theta = 1/\beta_1 Вопрос 1: Какие предположения необходимы для того, чтобы …

9 regression distributions maximum-likelihood bootstrap

2

Могу ли я доверять регрессии, если переменные автокоррелированы?

Обе переменные (зависимая и независимая) показывают автокорреляционные эффекты. Данные временные и стационарные Когда я запускаю регрессионные остатки, похоже, не связаны. Моя статистика Дурбина-Ватсона больше верхнего критического значения, поэтому есть свидетельства того, что условия ошибок не имеют положительной корреляции. Также, когда я строю ACF для ошибок, похоже, что там нет никакой …

9 regression time-series autocorrelation

2

Какой тип регрессии использовать, учитывая одну переменную с верхней границей?

Я не уверен, какой метод использовать для моделирования отношений между двумя переменными ( и y ) в эксперименте, описанном ниже:xxxyyy Есть 3 переменные: , x и y .xaimxaimx_{aim}xxxyyy Значение устанавливается при проведении эксперимента. Однако x и x a i m не всегда равны.xaimxaimx_{aim}xxxxaimxaimx_{aim} Коэффициент корреляции Пирсона между и x составляет …

9 regression correlation

Вопросы с тегом «regression»