BOUNTY:
Полная награда будет присуждена кому-либо, кто предоставит ссылку на любой опубликованный документ, который использует или упоминает оценку ниже.
Мотивация:
Этот раздел, вероятно, не важен для вас, и я подозреваю, что он не поможет вам получить награду, но, поскольку кто-то спросил о мотивации, вот над чем я работаю.
Я работаю над статистической проблемой теории графов. Стандартный ограничивающий объект плотного графа является симметричной функцией в том смысле, что . Выборка графика по вершинам может рассматриваться как выборка равномерных значений на единичном интервале ( для ) и тогда вероятность ребра равна . Пусть результирующая матрица смежности называться .
∬ W > 0 f A f f fW
К сожалению, метод, который я нашел, показывает последовательность, когда мы выбираем из распределения с плотностью . Путь построен требует , чтобы я образец сетки точек (в отличие от взятия черпает из оригинального ). В этом вопросе stats.SE я задаю одномерную (более простую) проблему того, что происходит, когда мы можем только сэмплировать выборку Бернулли на сетке, подобной этой, а не фактически сэмплировать непосредственно из распределения.A f
ссылки на пределы графа:
Л. Ловаш и Б. Сегеды. Пределы плотных графовых последовательностей ( arxiv ).
C. Borgs, J. Chayes, L. Lovasz, V. Sos и K. Vesztergombi. Сходящиеся последовательности плотных графов i: частоты подграфа, метрические свойства и тестирование. ( архив )
Обозначения:
Рассмотрим непрерывное распределение с cdf и pdf которое имеет положительную поддержку на отрезке . Предположим, что не имеет точечной массы, всюду дифференцируема, а также что является супремумом на отрезке . Пусть означает , что случайная величина выборка из распределения . - это идентичные случайные величины на .
Проблема настроена:
Часто мы можем позволить быть случайными переменными с распределением и работать с обычной эмпирической функцией распределения как где - функция индикатора. Обратите внимание, что это эмпирическое распределение само по себе случайное (где фиксировано).
К сожалению, я не могу рисовать образцы непосредственно из . Однако я знаю, что имеет положительную поддержку только на , и я могу генерировать случайные величины где - случайная величина с распределением Бернулли с вероятностью успеха где и определены выше. Итак, . Один очевидный способ, которым я мог бы оценить по этим значениям это взять где
Вопросов:
От (как мне кажется, должно быть) проще всего до самого сложного.
Кто-нибудь знает, есть ли у этого (или что-то подобное) имя? Можете ли вы предоставить ссылку, где я могу увидеть некоторые из его свойств?
Является ли как последовательной оценкой (и можете ли вы доказать это)?
Каково предельное распределение при ?
В идеале я хотел бы ограничить следующее как функцию от - например, , но я не знаю, какова истина. означает Big O по вероятности
Некоторые идеи и заметки:
Это очень похоже на выборку с приемом-отклонением с использованием стратификации на основе сетки. Обратите внимание, что это не так, потому что там мы не рисуем другой образец, если мы отклоняем предложение.
Я почти уверен, что это предвзято. Я думаю, что альтернатива беспристрастна, но имеет неприятное свойство: .
Я заинтересован в использовании в качестве оценщика плагинов . Я не думаю, что это полезная информация, но, возможно, вы знаете причину, по которой это может быть.
Пример в R
Вот код R, если вы хотите сравнить эмпирическое распределение с . Извините, некоторые отступы неверны ... Я не вижу, как это исправить.
# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)
# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
u <- sort(runif(n))
x <- qD(u) # samples for empirical dist
z <- 0 # keep track of how many y_i == 1
# take bernoulli samples at the points s
s <- seq(0,1-1/n,length=n) + runif(n,0,1/n)
p <- dD(s) # density at s
while(z == 0){ # make sure we get at least one y_i == 1
y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
z <- sum(y)
}
result <- list(x=x, y=y, z=z)
return(result)
}
sim <- function(simdat, n, w){
# F hat -- empirical dist at w
fh <- mean(simdat$x < w)
# F tilde
ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
# Uncomment this if we want an unbiased estimate.
# This can take on values > 1 which is undesirable for a cdf.
### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
return(c(fh, ft))
}
set.seed(1) # for reproducibility
n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))
# compare the true value to the empirical means
pD(w) # the truth
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var) # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth
# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
rep(seq(0,1,length=n+1),each=2),
col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
rep(seq(0,1,length=dat$z+1),each=2),
col="blue")
правок:
РЕДАКТИРОВАТЬ 1 -
Я отредактировал это, чтобы адресовать комментарии @ whuber.
РЕДАКТИРОВАТЬ 2 -
Я добавил код R и очистил его немного больше. Я немного изменил обозначения для удобства чтения, но по сути это то же самое. Я планирую назначить вознаграждение за это, как только мне позволят, поэтому, пожалуйста, дайте мне знать, если вы хотите получить дополнительные разъяснения.
РЕДАКТИРОВАТЬ 3 -
Я думаю, что обратился к замечаниям @ cardinal. Я исправил опечатки в общем варианте. Я добавляю награду.
РЕДАКТИРОВАТЬ 4 -
Добавлен раздел "мотивация" для @cardinal.