Сравнение средств слишком слабое: вместо этого сравните распределения.
Существует также вопрос относительно того, является ли более желательным сравнение размеров остатков (как указано) или сравнение самих остатков. Поэтому я оцениваю оба.
Чтобы быть точным в том, что имеется в виду, вот некоторый R
код для сравнения данных (заданных в параллельных массивах и ) путем регрессии y на x , деления остатков на три группы путем их разрезания ниже квантиля q 0 и выше квантиля q 1 > q 0 и (посредством графика qq) сравнивают распределения значений x, связанных с этими двумя группами.(x,y)x
y
yxq0Q1> д0Икс
test <- function(y, x, q0, q1, abs0=abs, ...) {
y.res <- abs0(residuals(lm(y~x)))
y.groups <- cut(y.res, quantile(y.res, c(0,q0,q1,1)))
x.groups <- split(x, y.groups)
xy <- qqplot(x.groups[[1]], x.groups[[3]], plot.it=FALSE)
lines(xy, xlab="Low residual", ylab="High residual", ...)
}
Пятый аргумент этой функции, abs0
по умолчанию использует размеры (абсолютные значения) остатков для формирования групп. Позже мы можем заменить это функцией, которая использует сами остатки.
Остатки используются для обнаружения многих вещей: выбросов, возможных корреляций с экзогенными переменными, качества соответствия и гомоскедастичности. Выбросы по своей природе должны быть немногочисленными и изолированными, и, следовательно, здесь не будут играть значимой роли. Чтобы сделать этот анализ простым, давайте рассмотрим последние два: соответствие качества (то есть линейность отношения - y ) и гомоскедастичность (то есть постоянство размера невязок). Мы можем сделать это с помощью симуляции:ИксY
simulate <- function(n, beta0=0, beta1=1, beta2=0, sd=1, q0=1/3, q1=2/3, abs0=abs,
n.trials=99, ...) {
x <- 1:n - (n+1)/2
y <- beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd)
plot(x,y, ylab="y", cex=0.8, pch=19, ...)
plot(x, res <- residuals(lm(y ~ x)), cex=0.8, col="Gray", ylab="", main="Residuals")
res.abs <- abs0(res)
r0 <- quantile(res.abs, q0); r1 <- quantile(res.abs, q1)
points(x[res.abs < r0], res[res.abs < r0], col="Blue")
points(x[res.abs > r1], res[res.abs > r1], col="Red")
plot(x,x, main="QQ Plot of X",
xlab="Low residual", ylab="High residual",
type="n")
abline(0,1, col="Red", lwd=2)
temp <- replicate(n.trials, test(beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd),
x, q0=q0, q1=q1, abs0=abs0, lwd=1.25, lty=3, col="Gray"))
test(y, x, q0=q0, q1=q1, abs0=abs0, lwd=2, col="Black")
}
y∼β0+β1x+β2x2sd
q0q1abs0
n.trials
n
(x,y)данные, их остатки, и qq графики нескольких испытаний - чтобы помочь нам понять, как предлагаемые тесты работают для данной модели (как определено n
, бета, с и sd
). Примеры этих графиков приведены ниже.
Давайте теперь используем эти инструменты, чтобы исследовать некоторые реалистичные комбинации нелинейности и гетероскедастичности, используя абсолютные значения невязок:
n <- 100
beta0 <- 1
beta1 <- -1/n
sigma <- 1/n
size <- function(x) abs(x)
set.seed(17)
par(mfcol=c(3,4))
simulate(n, beta0, beta1, 0, sigma*sqrt(n), abs0=size, main="Linear Homoscedastic")
simulate(n, beta0, beta1, 0, 0.5*sigma*(n:1), abs0=size, main="Linear Heteroscedastic")
simulate(n, beta0, beta1, 1/n^2, sigma*sqrt(n), abs0=size, main="Quadratic Homoscedastic")
simulate(n, beta0, beta1, 1/n^2, 5*sigma*sqrt(1:n), abs0=size, main="Quadratic Heteroscedastic")
xxx значениями связанными с низкими невязками; после многих испытаний появляется серый конверт вероятных графиков qq. Нас интересует, как и насколько сильно эти огибающие меняются в зависимости от отклонения от базовой линейной модели: сильное изменение подразумевает хорошую дискриминацию.
xxx значений .
Давайте сделаем то же самое, используя точно такие же данные , но проанализировав сами остатки. Для этого предыдущий блок кода был перезапущен после внесения этой модификации:
size <- function(x) x
x
Возможно объединение этих двух методов будет работать. Эти симуляции (и их разновидности, которые заинтересованный читатель может запустить на досуге) демонстрируют, что эти методы не лишены достоинств.
x(x,y^−x)мы можем ожидать, что предложенные тесты будут менее мощными, чем регрессионные тесты, такие как Бреуш-Паган .
IV
и те же значения ? Если так, я не вижу смысла в этом, потому что остаточное разделение уже использует эту информацию. Можете ли вы привести пример, где вы видели это, это ново для меня?