Определите, значительно ли улучшился распределенный процесс с тяжелыми хвостами

12

Я наблюдаю время обработки процесса до и после изменения, чтобы выяснить, улучшился ли процесс в результате изменения. Процесс улучшился, если время обработки сократилось. Распределение времени обработки жирнохвостое, поэтому сравнение по среднему показателю нецелесообразно. Вместо этого я хотел бы знать, значительно ли вероятность наблюдать меньшее время обработки после изменения выше 50%.

Пусть будет случайной величиной для времени обработки после изменения, а - предыдущей. Если значительно выше то я бы сказал, что процесс улучшился. $X$ $Y$ $P(X < Y)$ $0.5$

Теперь у меня есть наблюдений из и наблюдений из . Наблюдаемая вероятность является $n$ $x_i$ $X$ $m$ $y_j$ $Y$ $P(X < Y)$ . $\hat p = \frac{1}{n m} \sum_i \sum_j 1_{x_i < y_j}$

Что я могу сказать о учитывая наблюдения и ? $P(X < Y)$ $x_i$ $y_j$

sampling nonparametric

— Кристиан
источник

12

Ваша оценка равно Манна-Уитни статистики , разделенной на (спасибо, Глен!), И, следовательно , эквивалентно Вилкоксона суммы рангов статистики (также известный как статистика Вилкоксона-Манна-Уитни): $\hat{p}$ $U$ $mn$ $W$ $W = U + {n(n+1)\over{2}}$ , где $n$ - размер выборки $y$ (при условии отсутствия связей). Поэтому вы можете использовать таблицы / программное обеспечение теста Уилкоксона и преобразовать их обратно в $U$ чтобы получить доверительный интервал или $p$ значение.

Пусть $m$ будет размером выборки $x$ , $N$ = $m+n$ . Тогда асимптотически

$W^* = \frac{W-\frac{m(N+1)}{2}}{\sqrt{\frac{mn(N+1)}{12}}} \sim \text{N}(0,1)$

Источник: Холландер и Вульф , Непараметрические статистические методы, примерно с. 117, но, вероятно, большинство непараметрических книг статистики попадут туда.

— jbowman
источник

@Glen_b - спасибо, я обновил ответ. Очень щедрое предположение, которое вы сделали там о причине ошибки!

— Jbowman

13

@jbowman предоставляет (хорошее) стандартное решение задачи оценки которая известна как модель прочности при напряжении . $\theta=P(X<Y)$

Другая непараметрическая альтернатива была предложена в Baklizi and Eidous (2006) для случая, когда и независимы. Это описано ниже. $X$ $Y$

По определению имеем

θ = P (X < Y) = \int_{- \infty}^{\infty} F_{X} (y) f_{Y} (y) d y,

$\theta=P(X<Y)=\int_{-\infty}^{\infty}F_X(y)f_Y(y)dy,$

где представляет ВПР из и представляет собой плотность . Затем, используя образцы и можно получить ядро оценок из и и , следовательно , и оценку & $F_X$ $X$ $f_Y$ $Y$ $X$ $Y$ $F_X$ $f_Y$ $\theta$

\hat{θ} = \int_{- \infty}^{\infty} {\hat{F}}_{X} (y) {\hat{f}}_{Y} (y) d y .

$\hat\theta=\int_{-\infty}^{\infty}\hat F_X(y)\hat f_Y(y)dy.$

Это реализовано в следующем коде R с использованием ядра Гаусса.

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r )
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

# Example when X and Y are Cauchy
datx = rcauchy(100,0,1)
daty =  rcauchy(100,0,1)

nonpest(datx,daty)

$\theta$

# bootstrap
B=1000
p = rep(0,B)

for(j in 1:B){
dat1 =  sample(datx,length(datx),replace=T)
dat2 =  sample(daty,length(daty),replace=T)
p[j] = nonpest(dat1,dat2)
}

# histogram of the bootstrap sample
hist(p)

# A confidence interval (quantile type)
c(quantile(p,0.025),quantile(p,0.975))

Другие виды интервалов начальной загрузки также могут быть рассмотрены.

2

Интересная и хорошая бумажная ссылка (+1). Я добавлю это в свой репертуар!

— jbowman

0

$X_i-Y_i$ $P(X_i-Y_i<0) = p$ $I\{X_i-Y_i<0\}$ $i=1,2,..,n$ $X$ $X_i < Y_i$ $n$ $p=P(X_i-Y_i<0)$ $X/n$

— Майкл Р. Черник
источник

2

Что лежит в основе спаривания, Майкл?

— whuber

ОП сказал: «Пусть X будет случайной величиной для времени обработки после изменения, а Y - до». Итак, Xi - после вмешательства, а Yi - до.

— Майкл Р. Черник

m = n

$m=n$

X_{i}

$X_i$

Y_{j}

$Y_j$

1

Ты прав. Я полагаю, что было бы уместно провести тест с двумя образцами, такой как Уилкоксон, как предложено выше. Интересно, что форма Манна-Уитни в тесте подсчитывает число Xis <Yjs.

— Майкл Р. Черник