Возможно, вы бы выиграли от исследовательского инструмента. Разделение данных на децили с координатой х, по-видимому, было выполнено в этом духе. С модификациями, описанными ниже, это идеальный подход.
Многие двумерные поисковые методы были изобретены. Простым, предложенным Джоном Тьюки ( EDA , Addison-Wesley 1977), является его «блуждающий схематический сюжет». Вы нарезаете x-координату на ячейки, устанавливаете вертикальный блок-график соответствующих данных y на медиане каждого лотка и соединяете ключевые части блок-графиков (медианы, шарниры и т. Д.) В кривые (при желании сглаживая их). Эти "блуждающие следы" обеспечивают картину двумерного распределения данных и позволяют немедленно визуально оценить корреляцию, линейность отношений, выбросы и предельные распределения, а также надежную оценку и оценку соответствия всех нелинейных функций регрессии. ,
2- к1 - 2- кk = 1 , 2 , 3 , …
Чтобы отобразить различные популяции ящиков, мы можем сделать ширину каждого коробочного графика пропорциональной количеству данных, которые оно представляет.
Получившийся блуждающий схематический график будет выглядеть примерно так. Данные, полученные на основе сводных данных, отображаются серыми точками на заднем плане. Над этим нарисован блуждающий схематический график с пятью кривыми в цвете и коробочными диаграммами (включая любые показанные выбросы) в черном и белом цветах.
х = - 4х = 4- 0,074для этих данных) близко к нулю. Однако настаивать на том, чтобы интерпретировать, что «почти нет корреляции» или «значимо, но мало корреляции», будет та же самая ошибка, подделанная в старой шутке о статистике, который был доволен своей головой в духовке и ногами в холодильнике, потому что в среднем температура была комфортной. Иногда одно число просто не подходит для описания ситуации.
Альтернативные поисковые инструменты с аналогичными целями включают надежные сглаживания оконных квантилей данных и подгонки квантильных регрессий с использованием диапазона квантилей. Благодаря доступности программного обеспечения для выполнения этих вычислений их, возможно, стало легче выполнять, чем блуждающих схематических трасс, но они не обладают той же простотой конструкции, простотой интерпретации и широкой применимостью.
Следующий R
код создал рисунок и может быть применен к исходным данным практически без изменений. (Не обращайте внимания на предупреждения, вызванные bplt
(вызванные bxp
): он жалуется, когда у него нет выбросов.)
#
# Data
#
set.seed(17)
n <- 1449
x <- sort(rnorm(n, 0, 4))
s <- spline(quantile(x, seq(0,1,1/10)), c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6),
xout=x, method="natural")
#plot(s, type="l")
e <- rnorm(length(x), sd=1)
y <- s$y + e # ($ interferes with MathJax processing on SE)
#
# Calculations
#
q <- 2^(-(2:floor(log(n/10, 2))))
q <- c(rev(q), 1/2, 1-q)
n.bins <- length(q)+1
bins <- cut(x, quantile(x, probs = c(0,q,1)))
x.binmed <- by(x, bins, median)
x.bincount <- by(x, bins, length)
x.bincount.max <- max(x.bincount)
x.delta <- diff(range(x))
cor(x,y)
#
# Plot
#
par(mfrow=c(1,1))
b <- boxplot(y ~ bins, varwidth=TRUE, plot=FALSE)
plot(x,y, pch=19, col="#00000010",
main="Wandering schematic plot", xlab="X", ylab="Y")
for (i in 1:n.bins) {
invisible(bxp(list(stats=b$stats[,i, drop=FALSE],
n=b$n[i],
conf=b$conf[,i, drop=FALSE],
out=b$out[b$group==i],
group=1,
names=b$names[i]), add=TRUE,
boxwex=2*x.delta*x.bincount[i]/x.bincount.max/n.bins,
at=x.binmed[i]))
}
colors <- hsv(seq(2/6, 1, 1/6), 3/4, 5/6)
temp <- sapply(1:5, function(i) lines(spline(x.binmed, b$stats[i,],
method="natural"), col=colors[i], lwd=2))