Можно ли вообще рассортировать набор данных по размеру остатка и провести сравнение с двумя выборками?


16

Это то, что я вижу в качестве специального метода, и это мне кажется очень подозрительным, но, возможно, я что-то упустил. Я видел, как это делалось в множественной регрессии, но давайте просто сделаем это просто:

yi=β0+β1xi+εi

Теперь возьмите остатки от установленной модели

ei=yi(β^0+β^1xi)

и расслаивать выборку по размеру остатков. Например, скажем, первая выборка - это нижние 90% остатков, а вторая выборка - верхние 10%, а затем приступим к выполнению двух выборочных сравнений - я видел, что это было сделано как для предиктора в модели, , и на переменные не в модели. Неофициальная логика заключается в том, что, возможно, точки, значения которых намного превышают ожидаемые в модели (то есть большой остаток), в некотором роде различаются, и это различие исследуется таким образом.x

Мои мысли на эту тему:

  • Если вы видите разницу в 2 выборки для предиктора в модели, то существуют эффекты предиктора, не учитываемые моделью в ее текущем состоянии (то есть нелинейные эффекты).
  • Если вы видите разницу в 2 выборки для переменной, которой нет в модели, то, возможно, она должна была быть в модели в первую очередь.

Одна вещь , которую я нашел эмпирически ( с помощью моделирования) является то , что, если вы сравниваете среднее предсказатель в модели и стратифицировать таким образом , чтобы произвести два примера средства, ¯ х 1 и ¯ х 2 , они положительно коррелирует друг с другом. Это имеет смысл , так как оба образца зависит от ¯ г , ¯ х , σ х , σ у и ρ х уxx¯1x¯2y¯,x¯,σ^x,σ^yρ^xy, Эта корреляция увеличивается по мере того, как вы смещаете отсечку (т. Е.%, Который вы используете для деления выборки). Поэтому, по крайней мере, если вы собираетесь провести сравнение с двумя выборками, стандартная ошибка в знаменателе -статистики должна быть скорректирована с учетом корреляции (хотя я не получил явную формулу для ковариация).t

Во всяком случае, мой основной вопрос: есть ли для этого обоснование? Если да, то в каких ситуациях это может быть полезно? Очевидно, я не думаю, что есть, но может быть что-то, о чем я не думаю в правильном направлении.


в двух примерах сравнения используются одни IVи те же значения ? Если так, я не вижу смысла в этом, потому что остаточное разделение уже использует эту информацию. Можете ли вы привести пример, где вы видели это, это ново для меня?
Мишель

1
Что ж, можно предположить, что это можно использовать в качестве диагностики, чтобы определить, нет ли у вас неправильной спецификации модели. Что вы об этом думаете?
Макро

3
Я не вижу никакого смысла в этом, кроме как в качестве диагностического инструмента для выявления проблемных точек или пропущенных нелинейных эффектов, как предлагается в приведенных выше комментариях. Я думаю, что две точки в ОП («мысли по этому вопросу ...») довольно здравые.
Питер Эллис

1
Этот метод используется Ло и его соавторами для определения переменных расщепления в его древовидных алгоритмах ПОДДЕРЖКА и, я думаю, РУКОВОДСТВО. Поскольку набор данных разбивается таким образом, его можно рассматривать как поиск нелинейного влияния (с помощью пошаговой функции) и определение того, действительно ли переменная была забыта. Я помню, интересно, если это тоже умно, может быть, вы найдете больше объяснений в их работах (я не помню).
Момо

1
Конечно, нет проблем. Вот Чаудхури и др. www3.stat.sinica.edu.tw/statistica/j4n1/j4n18/j4n18.htm www3.stat.sinica.edu.tw/statistica/j5n2/j5n217/j5n217.htm ссылки на SUPPORT и страницу Лоха и др. для руководства GUIDE . wisc.edu/~loh/guide.html
Момо,

Ответы:


8

Сравнение средств слишком слабое: вместо этого сравните распределения.

Существует также вопрос относительно того, является ли более желательным сравнение размеров остатков (как указано) или сравнение самих остатков. Поэтому я оцениваю оба.

Чтобы быть точным в том, что имеется в виду, вот некоторый Rкод для сравнения данных (заданных в параллельных массивах и ) путем регрессии y на x , деления остатков на три группы путем их разрезания ниже квантиля q 0 и выше квантиля q 1 > q 0 и (посредством графика qq) сравнивают распределения значений x, связанных с этими двумя группами.(x,y)xyyxq0Q1>Q0Икс

test <- function(y, x, q0, q1, abs0=abs, ...) {
  y.res <- abs0(residuals(lm(y~x)))
  y.groups <- cut(y.res, quantile(y.res, c(0,q0,q1,1)))
  x.groups <- split(x, y.groups)
  xy <- qqplot(x.groups[[1]], x.groups[[3]], plot.it=FALSE)
  lines(xy, xlab="Low residual", ylab="High residual", ...)
}

Пятый аргумент этой функции, abs0 по умолчанию использует размеры (абсолютные значения) остатков для формирования групп. Позже мы можем заменить это функцией, которая использует сами остатки.

Остатки используются для обнаружения многих вещей: выбросов, возможных корреляций с экзогенными переменными, качества соответствия и гомоскедастичности. Выбросы по своей природе должны быть немногочисленными и изолированными, и, следовательно, здесь не будут играть значимой роли. Чтобы сделать этот анализ простым, давайте рассмотрим последние два: соответствие качества (то есть линейность отношения - y ) и гомоскедастичность (то есть постоянство размера невязок). Мы можем сделать это с помощью симуляции:ИксY

simulate <- function(n, beta0=0, beta1=1, beta2=0, sd=1, q0=1/3, q1=2/3, abs0=abs,
                     n.trials=99, ...) {
  x <- 1:n - (n+1)/2
  y <- beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd)
  plot(x,y, ylab="y", cex=0.8, pch=19, ...)
  plot(x, res <- residuals(lm(y ~ x)), cex=0.8, col="Gray", ylab="", main="Residuals")
  res.abs <- abs0(res)
  r0 <- quantile(res.abs, q0); r1 <- quantile(res.abs, q1)
  points(x[res.abs < r0], res[res.abs < r0], col="Blue")
  points(x[res.abs > r1], res[res.abs > r1], col="Red")
  plot(x,x, main="QQ Plot of X",
       xlab="Low residual", ylab="High residual",
       type="n")
  abline(0,1, col="Red", lwd=2)
  temp <- replicate(n.trials, test(beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd), 
                             x, q0=q0, q1=q1, abs0=abs0, lwd=1.25, lty=3, col="Gray"))
  test(y, x, q0=q0, q1=q1, abs0=abs0, lwd=2, col="Black")
}

yβ0+β1x+β2x2sdq0q1abs0n.trialsn(x,y)данные, их остатки, и qq графики нескольких испытаний - чтобы помочь нам понять, как предлагаемые тесты работают для данной модели (как определено n, бета, с и sd). Примеры этих графиков приведены ниже.

Давайте теперь используем эти инструменты, чтобы исследовать некоторые реалистичные комбинации нелинейности и гетероскедастичности, используя абсолютные значения невязок:

n <- 100
beta0 <- 1
beta1 <- -1/n
sigma <- 1/n

size <- function(x) abs(x)
set.seed(17)
par(mfcol=c(3,4))
simulate(n, beta0, beta1, 0, sigma*sqrt(n), abs0=size, main="Linear Homoscedastic")
simulate(n, beta0, beta1, 0, 0.5*sigma*(n:1), abs0=size, main="Linear Heteroscedastic")
simulate(n, beta0, beta1, 1/n^2, sigma*sqrt(n), abs0=size, main="Quadratic Homoscedastic")
simulate(n, beta0, beta1, 1/n^2, 5*sigma*sqrt(1:n), abs0=size, main="Quadratic Heteroscedastic")

xxx значениями связанными с низкими невязками; после многих испытаний появляется серый конверт вероятных графиков qq. Нас интересует, как и насколько сильно эти огибающие меняются в зависимости от отклонения от базовой линейной модели: сильное изменение подразумевает хорошую дискриминацию.

Абсолютные значения

xxx значений .

Давайте сделаем то же самое, используя точно такие же данные , но проанализировав сами остатки. Для этого предыдущий блок кода был перезапущен после внесения этой модификации:

size <- function(x) x

Остаточные

x

Возможно объединение этих двух методов будет работать. Эти симуляции (и их разновидности, которые заинтересованный читатель может запустить на досуге) демонстрируют, что эти методы не лишены достоинств.

x(x,y^x)мы можем ожидать, что предложенные тесты будут менее мощными, чем регрессионные тесты, такие как Бреуш-Паган .


2

Я согласен с обоими вашими соображениями. Если модель неадекватна, остатки могут не быть приблизительно независимыми и одинаково распределенными. Важные переменные могли быть пропущены, или функциональная форма переменных регрессора могла быть неправильной. Если это так, я бы использовал стандартную регрессионную диагностику, чтобы определить проблему, а не эту. Также вы можете иметь правильные переменные в модели с правильной функциональной формой, но при этом иметь непостоянную дисперсию. Это может быть очевидным, только еслиея против Икся, Я вижу смысл говорить о желании найти выбросы в модели через некоторую форму невязки, но тогда я бы порекомендовал подход функции влияния для их обнаружения. Я не вижу, что выполняет эта процедура.

Другие отметили, что это может быть просто исследовательским инструментом, чтобы увидеть, должны ли два набора данных моделироваться отдельно. Если это так, то этот и, возможно, другие исследовательские подходы могут быть в порядке. Но тогда возникает вопрос: что вы будете делать дальше? Если вы собираетесь провести две отдельные регрессии и сделать выводы о выборках, я думаю, вам нужно каким-то образом учитывать способ разделения выборки.


0

Я полагаю, что для этого может быть несколько причин, например, если предположить, что невязки согласованы, то метод, который вы упомянули, может помочь идентифицировать отдаленные наблюдения, поэтому на втором этапе предусмотрены «исправленные» оценки. Но есть более строгие методы, которые выполняют обнаружение посторонних или которые обеспечивают оценки, которые являются устойчивыми к присутствию таких наблюдений, таких как квантильные регрессии, LMS (наименьшее среднее квадратов) или M-оценки и т. Д., Где все эти методы хорошо определены и известные статистические свойства. (Это было добавлено @Michael Chernik)

Другой мотивацией может быть идентификация кластера, но это примитивно по сравнению с доступными методами обнаружения кластеров, которые также хорошо определены и широко применяются.

В обоих случаях использование остатков кажется неформальным и примитивным, но все же может рассматриваться как исследовательский инструмент. Это также зависит от области читателей. Я считаю это приемлемым для некоторых социальных наук, где количественные инструменты могут быть менее популярными.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.