Эмпирическая альтернатива распределения


13

BOUNTY:

Полная награда будет присуждена кому-либо, кто предоставит ссылку на любой опубликованный документ, который использует или упоминает оценку F~ ниже.

Мотивация:

Этот раздел, вероятно, не важен для вас, и я подозреваю, что он не поможет вам получить награду, но, поскольку кто-то спросил о мотивации, вот над чем я работаю.

Я работаю над статистической проблемой теории графов. Стандартный ограничивающий объект плотного графа W:[0,1]2[0,1] является симметричной функцией в том смысле, что W(u,v)=W(v,u) . Выборка графика по n вершинам может рассматриваться как выборка n равномерных значений на единичном интервале ( Ui для i=1,,n) и тогда вероятность ребра (i,j) равна W(Ui,Uj) . Пусть результирующая матрица смежности называться .A

WW > 0 f A f f ff=W/WW>0fAfffWAW

К сожалению, метод, который я нашел, показывает последовательность, когда мы выбираем из распределения с плотностью . Путь построен требует , чтобы я образец сетки точек (в отличие от взятия черпает из оригинального ). В этом вопросе stats.SE я задаю одномерную (более простую) проблему того, что происходит, когда мы можем только сэмплировать выборку Бернулли на сетке, подобной этой, а не фактически сэмплировать непосредственно из распределения.A ffAf

ссылки на пределы графа:

Л. Ловаш и Б. Сегеды. Пределы плотных графовых последовательностей ( arxiv ).

C. Borgs, J. Chayes, L. Lovasz, V. Sos и K. Vesztergombi. Сходящиеся последовательности плотных графов i: частоты подграфа, метрические свойства и тестирование. ( архив )

Обозначения:

Рассмотрим непрерывное распределение с cdf и pdf которое имеет положительную поддержку на отрезке . Предположим, что не имеет точечной массы, всюду дифференцируема, а также что является супремумом на отрезке . Пусть означает , что случайная величина выборка из распределения . - это идентичные случайные величины на .Ff[0,1]fFsupz[0,1]f(z)=c<f[0,1]XFXFUi[0,1]

Проблема настроена:

Часто мы можем позволить быть случайными переменными с распределением и работать с обычной эмпирической функцией распределения как где - функция индикатора. Обратите внимание, что это эмпирическое распределение само по себе случайное (где фиксировано).X1,,XnF

F^n(t)=1ni=1nI{Xit}
IF^n(t)t

К сожалению, я не могу рисовать образцы непосредственно из . Однако я знаю, что имеет положительную поддержку только на , и я могу генерировать случайные величины где - случайная величина с распределением Бернулли с вероятностью успеха где и определены выше. Итак, . Один очевидный способ, которым я мог бы оценить по этим значениям это взять гдеFf[0,1]Y1,,YnYi

pi=f((i1+Ui)/n)/c
cUiYiBern(pi)FYi
F~n(t)=1i=1nYii=1tnYi
- это функция потолка (то есть, округление до ближайшего целого числа) и перерисовка, если (чтобы избежать деления на ноль и разрушения вселенной) , Обратите внимание, что также является случайной величиной, поскольку являются случайными величинами.i=1nYi=0F~(t)Yi

Вопросов:

От (как мне кажется, должно быть) проще всего до самого сложного.

  1. Кто-нибудь знает, есть ли у этого (или что-то подобное) имя? Можете ли вы предоставить ссылку, где я могу увидеть некоторые из его свойств?F~n

  2. Является ли как последовательной оценкой (и можете ли вы доказать это)?nF~n(t)F(t)

  3. Каково предельное распределение при ?F~n(t)n

  4. В идеале я хотел бы ограничить следующее как функцию от - например, , но я не знаю, какова истина. означает Big O по вероятностиnOP(log(n)/n)OP

supC[0,1]C|F~n(t)F(t)|dt

Некоторые идеи и заметки:

  1. Это очень похоже на выборку с приемом-отклонением с использованием стратификации на основе сетки. Обратите внимание, что это не так, потому что там мы не рисуем другой образец, если мы отклоняем предложение.

  2. Я почти уверен, что это предвзято. Я думаю, что альтернатива беспристрастна, но имеет неприятное свойство: .F~n

    F~n(t)=cni=1tnYi
    P(F~(1)=1)<1
  3. Я заинтересован в использовании в качестве оценщика плагинов . Я не думаю, что это полезная информация, но, возможно, вы знаете причину, по которой это может быть.F~n

Пример в R

Вот код R, если вы хотите сравнить эмпирическое распределение с . Извините, некоторые отступы неверны ... Я не вижу, как это исправить.F~n

# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)


# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
  u <- sort(runif(n)) 
  x <- qD(u) # samples for empirical dist
  z <- 0 # keep track of how many y_i == 1
  # take bernoulli samples at the points s
  s <- seq(0,1-1/n,length=n) + runif(n,0,1/n) 
  p <- dD(s) # density at s
  while(z == 0){ # make sure we get at least one y_i == 1
    y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
    z <- sum(y)
  }
  result <- list(x=x, y=y, z=z)
  return(result)
}

sim <- function(simdat, n, w){
  # F hat -- empirical dist at w
  fh <- mean(simdat$x < w) 
  # F tilde
  ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
  # Uncomment this if we want an unbiased estimate.
  # This can take on values > 1 which is undesirable for a cdf.
  ### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
  return(c(fh, ft))
}


set.seed(1) # for reproducibility

n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))

# compare the true value to the empirical means
pD(w) # the truth 
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var)  # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth


# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
     main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
     rep(seq(0,1,length=n+1),each=2),
     col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
      rep(seq(0,1,length=dat$z+1),each=2),
      col="blue")

вывод из вышеуказанных данных

правок:

РЕДАКТИРОВАТЬ 1 -

Я отредактировал это, чтобы адресовать комментарии @ whuber.

РЕДАКТИРОВАТЬ 2 -

Я добавил код R и очистил его немного больше. Я немного изменил обозначения для удобства чтения, но по сути это то же самое. Я планирую назначить вознаграждение за это, как только мне позволят, поэтому, пожалуйста, дайте мне знать, если вы хотите получить дополнительные разъяснения.

РЕДАКТИРОВАТЬ 3 -

Я думаю, что обратился к замечаниям @ cardinal. Я исправил опечатки в общем варианте. Я добавляю награду.

РЕДАКТИРОВАТЬ 4 -

Добавлен раздел "мотивация" для @cardinal.


1
Ваш вопрос начал становиться неоднозначным в тот момент, когда вы ссылались на неопределенные объекты и использовали некоторые своеобразные обозначения. Например, появляется рано, но не имеет видимой связи с и только читая гораздо дальше, мы узнаем, что вы думаете о нем как о «не дискретном распределении» - но что это за объект? Важно то, что означает « ?» »обычно означает« супремум », но, может быть, это как-то связано с существенной поддержкой дистрибутива? Поскольку все в этом вопросе зависит от того, что они означают, я не могу понять, вопроса.fFsupzf(z)sup
whuber

1
Спасибо @whuber за ваши комментарии. Пожалуйста, дайте мне знать, если пересмотренный вопрос все еще сбивает с толку.
user1448319

1
Ага! Это первое указание, которое я видел, что не является фиксированным и что вас интересует асимптотика. Если это правда, у вас есть гибкость в выборе , не открывает ли это множество возможностей, таких как адаптивный выбор точек выборки (вместо ограничения фиксированной сеткой )? Также очевидно , вы делаете неявные предположения, такие , что непрерывна (эквивалентно, является абсолютно непрерывной ). Что еще вы можете предположить о базовом распределении которое может помочь в этом анализе? nn{i/n}fFF
whuber

2
Пара других вопросов / замечаний: Кажется, неявно основано на том, как вы предлагаете построить что вы действительно рассматриваете треугольный массив , для целей анализа сходимости. Исходя из того, как вы , кажется, что вы также должны быть в состоянии (так же легко) выбирать случайные величины Бернулли с условной вероятностью успеха где - равномерная случайная величина. Это правда? (Немного больше контекста к вашему вопросу, вероятно, разрешит большинство из этих запросов.) Приветствия. piYi,ni=1,,npif(U)/cU
кардинал

2
Этот вопрос был настолько улучшен, что я даже не узнал его, пока не понял, что видел комментарии раньше. Теперь это действительно интересный и гораздо более хорошо написанный вопрос.
Glen_b

Ответы:


1

Пока эта ссылка

РЕДАКТИРОВАТЬ: ДОБАВЛЕНО ССЫЛКА НА ОЧЕНЬ ПОХОЖУЮ СТАТИСТИКУ «Непараметрическая оценка по неполным наблюдениям» Е.Л. Каплан и Пол Мейер, журнал Американской статистической ассоциации, вып. 53, № 282 (Jun., 1958), стр. 457-481.

не относится к вашей ECDF-подобной оценке на Я считаю, что она логически эквивалентна оценке Каплана-Мейера (также известной как оценка продукта), используемой в Survival Analysis, даже если она применяется к временному диапазону .[0,1][0,)

Оценка смещения будет возможна, если вы получите разумную оценку распределения с помощью сглаживания ядра, если оно достаточно хорошо себя ведет (см., Например, преобразование Хмаладзе в Википедии).

В двумерном случае в вашем графе задача оценки из хотя и с тривиальным ограничением симметрии, выглядит аналогично подходу в Jean-David Fermanian, Dragan Radulovic и Marten Wegkamp (2004), Слабая сходимость эмпирических связок процессы , Бернулли , вып. 10, нет 5, 847–860, как @cardinal указал «Метод многомерного дельта».f=W/WA


0

Это отвечает на вопросы 2 и 3 выше. Я все еще действительно хочу ссылку хотя (из вопроса 1).

Это еще не учитывается, когда .Yi=0

Рассмотрим , затем где индексы обозначают производные. Вспомните . Пусть Так что учтите, что и . Также, g(A,B)=A/(A+B)

gA(A,B)=(A+B)1+A(A+B)2gB(A,B)=A(A+B)2gAA(A,B)=2B(A+B)3gAB(A,B)=(AB)(A+B)3gBB(B,B)=2A(A+B)3
pi=f((i1+Ui)/n)/c
R=1ni=1ntYi,μR=E(R)=0tp(u)du=c1F(t)S=1nnt+1nYi,μS=E(S)=t1p(u)du=c1(1F(t))
μR+μS=c1F(t)+c1(1F(t))=c1g(μR,μS)=F(t)
 Var(R)=1n2i=1nt Var(Yi)=1n0tf(u)/c(1f(u)/c)du=1nc20tf(u)(cf(u))du Var(S)=1nc2t1f(u)(cf(u))du
Обратите внимание, что по независимости от s. Cov(R,S)=0Yi

Теперь мы используем расширение Тейлора, чтобы получить

E(F~n(t))=E(1i=1nYii=1tnYi)=E(nRnR+nS)=E(RR+S)=E(g(R,S))=g(μR,μS)+12E((RμR)2)gRR(μR,μS)+E((RμR)(SμS))gRS(μR,μS)+12E((SμS)2)gSS(μR,μS)+=F(t)+12E((RμR)2)2μS(μR+μS)3+E((RμR)(SμS))(μRμS)(μR+μS)3+12E((SμS)2)2μR(μR+μS)3+=F(t)+(μR+μS)3(E((RμR)2)μS+E((RμR)(SμS))(μRμS)+E((SμS)2)μR)+=F(t)+c3( Var(R)c(1F(t))+ Cov(R,S)(cF(t)c(1F(t)))+ Var(S)cF(t))+=F(t)+c4((1n0tf(u)(cf(u))du)(1F(t))+(1nt1f(u)(cf(u))du)F(t))+=F(t)+V~F(t)/n+=F(t)+O(n1)
где В частности, мы получаем
V~F(t)=c2(0tf(u)(cf(u))du)(1F(t))+c2(t1f(u)(cf(u))du)F(t)<c2(0tcf(u)du)(1F(t))+c2(t1cf(u)du)F(t)<c32F(t)(1F(t))
n(F~n(t)F(t))dN(0,VF(t))

Пожалуйста, прокомментируйте, если вы видите что-то не так с этим.

правок:

Изменить 1 -

Исправлена ​​опечатка в . Спасибо @cardinal за ваше предложение в комментариях к вопросу 4.VF(t)

Редактировать 2 -

Исправлено множество опечаток: у меня был где я должен был иметь во многих местах. Мне все еще нужно обратиться к ответу @ cardinal о .c1cYi=0


1
Уважаемый @user: Это на правильном пути; Вот несколько предложений. ( 1 ) Среднее значение не существует, по крайней мере, до тех пор, пока вы не укажете, что происходит, когда , поэтому, строго говоря, анализ в ответе не верен. Определение поведения на нуле нарушит структуру независимости, но еще не все потеряно. ( 2 ) По сути, вы используете многомерный дельта-метод. Обратите внимание, что для этого не требуется наличия среднего значения , поэтому он будет более чистым (и более правильным), если вы пойдете по этому пути. F~n(t)iYi=0F~n(t)
кардинал

2
( 3 ) Пункт 4 в вашем списке обрабатывается следующим образом. Обратите внимание, чтоПервый член в правой части, , являетсятак же ясно . Вам остается только иметь дело со средним слагаемым, но оно легко уступает неравенству Маркова, за которым следует Дженсен, и также является .
supC[0,1]C|F~F|sup[0,1]|F~F~|+01|F~EF~|+O(n1).
{iYi>0}|1cn1iYi|Op(n1/2)Op(n1/2)
кардинал

Уважаемый @user: Было бы полезно увидеть некоторые уточнения в вашем замечании о том, что нет необходимости рассматривать случай . То, что вы описываете, является условной выборкой. обусловливающие являются не независимыми (или условно независимыми), поэтому (неявный) анализ в ответ не имеет. Может быть полезно взглянуть на случай чтобы увидеть это (просто нарисуйте таблицу ). iYi=0Yi{iYi>0}n=22×2
кардинал

Кроме того, стоит отметить, чтоТаким образом, это определение может быть упрощено. supCC|F~F|=01|F~F|
кардинал
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.