У этого дискретного распределения есть имя?


21

У этого дискретного распределения есть имя? Для i1...N

f(i)=1Nj=iN1j

Я наткнулся на этот дистрибутив из следующего: У меня есть список из элементов, ранжированных по какой-либо служебной функции. Я хочу случайным образом выбрать один из элементов, смещаясь к началу списка. Итак, сначала я выбираю индекс между 1 и равномерно. Затем я выбираю элемент между индексами 1 и . Я считаю, что этот процесс приводит к приведенному выше распределению.NjNj


2
Это не дистрибутив: он не нормализован.
whuber

@whuber Сначала я так думал (и прокомментировал, прежде чем понял, что неправильно понял и удалил комментарий), но оказалось, что я неправильно понял определение. Если у меня нет дальнейшего недопонимания, это нормализованная функция вероятности массы.
Glen_b

4
Нормализовано. 1/1 появится в сумме ровно один раз (это будет в f (1)). 1/2 появится ровно дважды (это будет в f (1) и f (2)). и т. д. Таким образом, сумма всех этих сумм будет равна N, а нормализующая константа будет показана как 1 / N. проверяет
rcorty

1
Более того, я не знаю, как называется этот дистрибутив. Я также не знаю, как описанный вами процесс приводит к этому дистрибутиву. Одна мысль, которая у меня возникла, заключается в том, что это звучит как отдельная версия процесса взлома клюшек, который очень хорошо поддается поиску.
rcorty

@Glen_b Спасибо. Я читал это на мой телефон, который не оказывал достаточно четко. f
whuber

Ответы:


30

У вас есть дискретизированная версия отрицательного лог-дистрибутива, то есть дистрибутива, чья поддержка и pdf которого f ( t ) = - log t .[0,1]f(t)=logt

Чтобы увидеть это, я собираюсь переопределить вашу случайную переменную, чтобы принимать значения в наборе вместо { 0 , 1 , 2 , , N } и вызывать в результате чего распределение T . Тогда я утверждаю, что{0,1/N,2/N,,1}{0,1,2,,N}T

Pr(T=tN)1Nlog(tN)

при а tN,t поддерживается (приблизительно) постоянным. tN

Сначала небольшой эксперимент по моделированию, демонстрирующий эту конвергенцию. Вот небольшая реализация сэмплера из вашего дистрибутива:

t_sample <- function(N, size) {
  bounds <- sample(1:N, size=size, replace=TRUE)
  samples <- sapply(bounds, function(t) {sample(1:t, size=1)})
  samples / N
}

Вот гистограмма большой выборки из вашего дистрибутива:

ss <- t_sample(100, 200000)
hist(ss, freq=FALSE, breaks=50)

введите описание изображения здесь

и вот наложенный логарифмический PDF:

linsp <- 1:100 / 100
lines(linsp, -log(linsp))

введите описание изображения здесь

Чтобы понять, почему происходит это сближение, начните с выражения

Pr(T=tN)=1Nj=tN1j

и умножить и разделить на N

Pr(T=tN)=1Nj=tNNj1N

g(x)=1xtN1N

Pr(T=tN)1NtN11xdx=1Nlog(tN)

К какому выражению я хотел прийти.


Добро пожаловать. Это был замечательный вопрос, и мне было очень интересно его решить.
Мэтью Друри

6

Похоже, это связано с распределением Уитворта. (Я не верю, что это распределение Уитворта, поскольку, если я правильно помню, это распределение набора упорядоченных значений, но, похоже, оно связано с ним и опирается на ту же схему суммирования.)

Есть некоторое обсуждение Whitworth (и многочисленные ссылки) в

Энтони Лоуренс и Роберт Маркс, (2008)
"Распределение размера фирмы в отрасли с ограниченными ресурсами",
Прикладная экономика , том. 40, выпуск 12, стр. 1595-1607

(Там выглядит рабочий документ версия здесь )

Также см

Нэнси Л. Геллер, (1979)
Тест значимости для распределения Уитворта,
Журнал Американского общества информатики , том 30 (4), с.229-231


2
Чтобы сделать этот ответ самодостаточным, не могли бы вы дать определение распределения Уитворта и, возможно, дать несколько слов объяснения относительно связи, которую вы видите?
whuber

@whuber Да, это должен быть комментарий. Я отредактирую некоторые детали, но это закончится намного дольше.
Glen_b

Просто какое-то определение было бы хорошо.
whuber

Спасибо, это было понято, но, тем не менее, это будет результат.
Glen_b
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.