Максимальный зазор между выборками, взятыми без замены из дискретного равномерного распределения

Эта проблема связана с исследованиями моей лаборатории в области робототехники:

Случайным образом нарисуйте чисел из набора без замены и отсортируйте числа в порядке возрастания. . $n$ $\{1,2,\ldots,m\}$ $1\le n\le m$

Из этого отсортированного списка чисел , создайте разницу между последовательными числами и границами: . Это дает пробелов. $\{a_{(1)},a_{(2)},…,a_{(n)}\}$ $g = \{a_{(1)},a_{(2)}−a_{(1)},\ldots,a_{(n)}−a_{(n-1)},m+1-a_{(n)}\}$ $n+1$

Каково распределение максимального разрыва?

$P(\max(g) = k) = P(k;m,n) = ?$

Это может быть оформлено с использованием статистики заказа : $P(g_{(n+1)} = k) = P(k;m,n) = ?$

См. Ссылку для распределения пробелов , но этот вопрос задает распределение максимального пробела.

Я был бы удовлетворен средним значением, $\mathbb{E}[g_{(n+1)}]$ .

Если $n=m$ все зазоры имеют размер 1. Если $n+1 = m$ то есть один зазор с размером $2$ и $n+1$ возможных местоположений. Максимальный размер промежутка составляет $m-n+1$ , и этот промежуток может быть помещен до или после любого из $n$ чисел, в общей сложности $n+1$ возможных позиций. Наименьший максимальный размер зазора - $\lceil\frac{m-n}{n+1}\rceil$ . Определите вероятность любой данной комбинации $T= {m \choose n}^{-1}$ .

Я частично решил функцию вероятности массы как $P(g_{(n+1)} = k) = P(k;m,n) = \begin{cases} 0 & k < \lceil\frac{m-n}{n+1}\rceil\\ 1 & k = \frac{m-n}{n+1} \\ 1 & k = 1 \text{ (occurs when $m=n$)} \\ T(n+1)& k = 2 \text{ (occurs when $m=n+1$)} \\ T(n+1)& k = \frac{m-(n-1)}{n} \\ ? & \frac{m-(n-1)}{n} \le k \le m-n+1 \\ T(n+1)& k = m-n+1\\ 0 & k > m-n+1 \end{cases} \tag{1}$

Текущая работа (1): Уравнение для первого промежутка, $a_{(1)}$ является простым:

P (a_{(1)} = k) = P (k; m, n) = \frac{1}{(\binom{m}{n})} \sum_{k = 1}^{m - n + 1} (\binom{m - k - 1}{n - 1})

$P(a_{(1)} = k) = P(k;m,n) = \frac{1}{{m \choose n}} \sum_{k=1}^{m-n+1} {m-k-1 \choose n-1}$ Ожидаемое значение имеет простое значение:

E [P (a_{(1)})] = \frac{1}{(\binom{m}{n})} \sum_{k = 1}^{m - n + 1} (\binom{m - k - 1}{n - 1}) k = \frac{m - n}{1 + n}

$\mathbb{E}[P(a_{(1)})] = \frac{1}{ {m \choose n}} \sum_{k=1}^{m-n+1} {m-k-1 \choose n-1} k = \frac{m-n}{1+n}$ . По симметрии я ожидаю, что все

n

$n$ промежутков будут иметь это распределение. Возможно, решение может быть найдено путем извлечения из этого распределения

n

$n$ раз.

Текущая работа (2): легко запустить симуляции Монте-Карло.

simMaxGap[m_, n_] := Max[Differences[Sort[Join[RandomSample[Range[m], n], {0, m+1}]]]];
m = 1000; n = 1; trials = 100000;
SmoothHistogram[Table[simMaxGap[m, n], {trials}], Filling -> Axis,
Frame -> {True, True, False, False},
FrameLabel -> {"k (Max gap)", "Probability"},
PlotLabel -> StringForm["m=``,n=``,smooth histogram of maximum map for `` trials", m, n, trials]][![enter image description here][1]][1]

— AaronBecker
источник

С этими условиями вы должны иметь n <= m. Я думаю, что вы хотите g = {a_ (1), a_ (2) -a_ (1), ..., a_ (n) -a_ (n-1)}. Случайный выбор означает выбор каждого числа с вероятностью 1 / м на первом тираже? Поскольку вы не заменяете, вероятность будет 1 / (m-1) на втором и так далее до 1 на m-м тираже, если n = m. Если n <m, это прекратилось бы раньше, когда последний розыгрыш имел вероятность 1 / (m- (n-1)) на n-м розыгрыше.

— Майкл Р. Черник

Ваше первоначальное описание не имело смысла, потому что (я полагаю) вы перенесли двух подписчиков. Пожалуйста, убедитесь, что мое редактирование соответствует вашему намерению: в частности, подтвердите, что вы имеете в виду, что должно быть пробелов, из которых является первым.

g

$g$

n

$n$

a_{(1)}

$a_{(1)}$

— whuber

@ Gung Я думаю, что это исследование, а не самообучение

— Glen_b

Я думаю, что ваш минимальный и максимальный размер зазора должен быть и . Минимальный размер пробела - это когда выбираются последовательные целые числа, а максимальный размер пробела - при выборе и первых целых чисел (или и )

1

$1$

m - n + 1

$m-n+1$

m

$m$

n - 1

$n-1$

1, \dots, n - 1

$1,\dots,n-1$

1

$1$

m - n + 2, \dots, m

$m-n+2,\dots,m$

— вероятностная

Спасибо, Майкл Черник, и, вероятно, ваши исправления были внесены. Спасибо @whuber за исправление!

— AaronBecker

Пусть - вероятность того, что минимум равен ; то есть выборка состоит из и -подмножества . Есть таких подмножеств из одинаково вероятных подмножеств, откуда $f(g;n,m)$ $a_{(1)}$ $g$ $g$ $n-1$ $\{g+1,g+2,\ldots,m\}$ $\binom{m-g}{n-1}$ $\binom{m}{n}$

Pr (a_{(1)} = g = f (g; n, m) = \frac{(\binom{m - g}{n - 1})}{(\binom{m}{n})} .

$\Pr(a_{(1)}=g = f(g;n,m) = \frac{\binom{m-g}{n-1}}{\binom{m}{n}}.$

Добавление для всех возможных значений больших дает функцию выживания $f(k;n,m)$ $k$ $g$

Pr (a_{(1)} > g) = Q (g; n, m) = \frac{(m - g) (\binom{m - g - 1}{n - 1})}{n (\binom{m}{n})} .

$\Pr(a_{(1)} \gt g) = Q(g;n,m)= \frac{(m-g)\binom{m-g-1}{n-1}}{n \binom{m}{n}}.$

Пусть будет случайной величиной, заданной наибольшим разрывом: $G_{n,m}$

G_{n, m} = max (a_{(1)}, a_{(2)} - a_{(1)}, \dots, a_{(n)} - a_{(n - 1)}) .

$G_{n,m} = \max\left(a_{(1)}, a_{(2)}-a_{(1)}, \ldots, a_{(n)}-a_{(n-1)}\right).$

(Это отвечает на вопрос в том виде, в котором он был изначально сформулирован, прежде чем он был изменен, чтобы включить пробел между и .) $a_{(n)}$ $m$ Мы вычислим его функцию выживания из которого легко получить все распределение . Метод представляет собой динамическую программу, начинающуюся с , для которой очевидно, что

P (g; n, m) = Pr (G_{n, m} > g),

$P(g;n,m)=\Pr(G_{n,m}\gt g),$

G_{n, m}

$G_{n,m}$

n = 1

$n=1$

\begin{matrix} (1) & P (g; 1, m) = Pr (G_{1, m} > 1) = \frac{m - g}{m}, g = 0, 1, \dots, m . \end{matrix}

$P(g;1,m) = \Pr(G_{1,m} \gt 1) = \frac{m-g}{m},\ g=0, 1, \ldots, m.\tag{1}$

Для больших обратите внимание, что событие является непересекающимся объединением события $n\gt 1$ $G_{n,m}\gt g$

a_{1} > g,

$a_{1} \gt g,$

для которого самый первый разрыв превышает , а отдельные события $g$ $g$

a_{1} = k and G_{n - 1, m - k} > g, k = 1, 2, \dots, g

$a_{1}=k\text{ and } G_{n-1,m-k} \gt g, \ k=1, 2, \ldots, g$

для которого первый зазор равен а зазор больше, чем возникает позже в образце. Закон полной вероятности утверждает, что вероятности этих событий добавляют, откуда $k$ $g$

\begin{matrix} (2) & P (g; n, m) = Q (g; n, m) + \sum_{k = 1}^{g} f (k; n, m) P (g; n - 1, m - k) . \end{matrix}

$P(g;n,m) = Q(g;n,m) + \sum_{k=1}^g f(k;n,m) P(g;n-1,m-k).\tag{2}$

Исправив и выложив двусторонний массив с индексами и , мы можем вычислить , используя заполнить первую строку и заполнить каждую последующую строку, используя операций для каждой строки. Следовательно, таблица может быть завершена в операций и всех таблиц для через может быть построена в операций. $g$ $i=1,2,\ldots,n$ $j=1,2,\ldots,m$ $P(g;n,m)$ $(1)$ $(2)$ $O(gm)$ $O(gmn)$ $g=1$ $g=m-n+1$ $O(m^3n)$

Эти графики показывают функцию выживания от для . При увеличении график перемещается влево, что соответствует уменьшению шансов на большие промежутки. $g\to P(g;n,64)$ $n=1,2,4,8,16,32,64$ $n$

Закрытые формулы для могут быть получены во многих особых случаях, особенно для больших , но я не смог получить закрытую формулу, которая применима ко всем . Хорошие приближения легко доступны, если заменить эту задачу аналогичной задачей для непрерывных равномерных переменных. $P(g;n,m)$ $n$ $g,n,m$

Наконец, ожидание получается суммированием его функции выживания, начиная с : $G_{n,m}$ $g=0$

E (G_{n, m}) = \sum_{g = 0}^{m - n + 1} P (g; n, m) .

$\mathbb{E}(G_{n,m}) = \sum_{g=0}^{m-n+1} P(g;n,m).$

Этот контурный график ожидания показывает контуры на , переходящие от темного к светлому. $2, 4, 6, \ldots, 32$

— Whuber
источник

Предложение: строка «Пусть будет случайной величиной, заданной наибольшим разрывом:», пожалуйста, добавьте последний разрыв

G_{n, m}

$G_{n,m}$

m + 1 - a_{n}

$m+1-a_{n}$ . Ваш график ожиданий соответствует моему симуляции Монте-Карло.

— AaronBecker,