Эффективный алгоритм для генерации двух диффузных, ненормальных перестановок мультимножества в случайном порядке

Фон

$\newcommand\ms[1]{\mathsf #1}\def\msD{\ms D}\def\msS{\ms S}\def\mfS{\mathfrak S}\newcommand\mfm[1]{#1}\def\po{\color{#f63}{\mfm{1}}}\def\pc{\color{#6c0}{\mfm{c}}}\def\pt{\color{#08d}{\mfm{2}}}\def\pth{\color{#6c0}{\mfm{3}}}\def\pf{4}\def\pv{\color{#999}5}\def\gr{\color{#ccc}}\let\ss\gr$ Предположим, у меня есть две одинаковые партии из шариков. Каждый мрамор может быть одного из цветов , где . Пусть обозначает количество шариков цвета в каждой партии. $n$ $c$ $c≤n$ $n_i$ $i$

Пусть $\msS$ - мультимножество $\small\{\overbrace{\po,…,\po}^{n_1},\;\overbrace{\pt,…,\pt}^{n_2},\;…,\;\overbrace{\vphantom 1\pc,…,\pc}^{n_c}\}$ представляющий один пакет. В частотном представлении , $\msS$ также может быть записана в виде $(\po^{n_1} \;\pt^{n_2}\; … \;\pc^{n_c})$ .

Число различных перестановок $\msS$ задается мультиномиальная :

| S_{S} | = (\binom{n}{n_{1}, n_{2}, \dots, n_{c}}) = \frac{n!}{n_{1}! n_{2}! \dots n_{c}!} = n! \prod_{i = 1}^{c} \frac{1}{n_{i}!} .

$\left|\mfS_{\msS}\right|=\binom{n}{n_1,n_2,\dots,n_c}=\frac{n!}{n_1!\,n_2!\cdots n_c!}=n! \prod_{i=1}^c \frac1{n_i!}.$

Вопрос

Существует ли эффективный алгоритм для генерации двух диффузных, ненормальных перестановок $P$ и $Q$ из $\msS$ в случайном порядке? (Распределение должно быть равномерным.)

Перестановка $P$ является диффузным , если для каждого отдельного элемента $i$ из $P$ , экземпляры $i$ разнесены примерно равномерно в $P$ .
Например, предположим, что $\msS=(\po^4\;\pt^4)=\{\po,\po,\po,\po,\pt,\pt,\pt,\pt\}$ .
- $\{\po, \po, \po, \pt, \pt, \pt, \pt, \po\}$ не является диффузным
- $\{\po, \pt, \po, \pt, \po, \pt, \po, \pt\}$ является диффузным
Более строго:
- Если , существует только один экземпляр для «пробела» в , поэтому пусть . $n_i=1$ $i$ $P$ $\Delta(i)=0$
- В противном случае, пусть будет расстояние между экземпляра и экземпляра из в . Вычтите из него ожидаемое расстояние между экземплярами , определив следующее: Если равномерно распределено в , то должно быть равно нулю или очень близко к нулю, если . $d(i,j)$ $j$ $j+1$ $i$ $P$ $i$ $δ (i, j) = d (i, j) - \frac{n}{n_{i}} Δ (i) = \sum_{j = 1}^{n_{i} - 1} δ (i, j)^{2}$ $\delta(i,j)=d(i,j)-\frac n{n_i}\qquad\qquad\Delta(i)=\sum_{j=1}^{n_i-1} \delta(i,j)^2$ $i$ $P$ $\Delta(i)$ $n_i\nmid n$
Теперь определим статистики , чтобы определить , сколько каждый равномерно разнесены в . Мы называем диффузным, если близко к нулю или примерно . (Можно выбрать пороговое значение специфичное для чтобы диффузным, если ) $s(P)=\sum_{i=1}^c\Delta(i)$ $i$ $P$ $P$ $s(P)$ $s(P)\ll n^2$ $k\ll1$ $\msS$ $P$ $s(P)<kn^2$

Это ограничение напоминает более строгую задачу планирования в реальном времени, называемую проблемой вращения, с мультимножеством (так что ) и плотностью . Цель состоит в том, чтобы запланировать циклическую бесконечную последовательность , чтобы любая подпоследовательность длины содержала, по меньшей мере, один экземпляр . Другими словами, выполнимое расписание требует все ; если плотно ( ), то и . Проблема с вертушкой, кажется, является NP-полной. $\ms A=n/\msS$ $a_i=n/n_i$ $\rho=\sum_{i=1}^c n_i/n=1$ $P$ $a_i$ $i$ $d(i,j)≤a_i$ $\ms A$ $\rho= 1$ $d(i,j)=a_i$ $s(P)=0$
Две перестановок и являются ненормальными , если представляет собой психоз из ; то есть для каждого индекса . $P$ $Q$ $P$ $Q$ $P_i ≠ Q_i$ $i\in[n]$
Например, предположим, что . $\msS=(\po^2\;\pt^2)=\{\po,\po,\pt,\pt\}$
- $\{\po, \pt, \po, \pt\}$ и не являются ненормальными $\{\po, \po, \pt, \pt\}$
- $\{\po, \pt, \po, \pt\}$ и являются ненормальными $\{\pt, \po, \pt, \po\}$

Исследовательский анализ

Меня интересует семейство мультимножеств с и для . В частности, пусть . $n=20$ $n_i=4$ $i\lesssim4$ $\msD=(\gr1^4\,\gr2^4\,\gr3^4\,\gr4^3\,\gr5^2\,\gr6^1\,\gr7^1\,\gr8^1)$

Вероятность того, что два случайные перестановки и из являются ненормальными составляет около 3%. $P$ $Q$ $\msD$

Это можно рассчитать следующим образом, где - это й полином Лагерра: Смотрите здесь для объяснения. $L_k$ $k$
$\begin{aligned} | D_{D} | & = \int_{0}^{\infty} d t e^{- t} \prod_{i = 1}^{c} L_{n_{i}} (t) = \int_{0}^{\infty} d t e^{- t} (L_{4} (t))^{3} (L_{3} (t)) (L_{2} (t)) (L_{1} (t))^{3} \\ = 4.5 \times 10^{11} \\ | S_{D} | & = n! \prod_{i = 1}^{c} \frac{1}{n_{i}!} = \frac{20!}{(4!)^{3} (3!) (2!) (1!)^{3}} = 1.5 \times 10^{13} \\ p & = | D_{D} | / | S_{D} | \approx 0.03 \end{aligned}$ $\begin{align*} \left|{\mathfrak D}_{\msD}\right| &=\int_0^\infty \!\!dt\; e^{-t}\, \prod_{i=1}^c L_{n_i}(t) =\int_0^\infty \!\!dt\; e^{-t}\, \bigl(L_4(t)\bigr)^3\bigl(L_3(t)\bigr)\bigl(L_2(t)\bigr)\bigl(L_1(t)\bigr)^3\\ &=4.5\times10^{11}\\ \left|\mfS_{\msD}\right| &=n!\prod_{i=1}^c \frac1{n_i!} =\frac{20!}{(4!)^3\,(3!)\,(2!)\,(1!)^3} =1.5\times10^{13}\\ p&=\left|{\mathfrak D}_{\msD}\right|/ \left|\mfS_{\msD}\right|\approx0.03\end{align*}$
Вероятность того, что случайная перестановка из является диффузной, составляет около 0,01%, устанавливая произвольный порог примерно на . $P$ $\msD$ $s(P)<25$

Ниже приведен график эмпирической вероятности 100 000 выборок где - случайная перестановка . $s(P)$ $P$ $\msD$

При средних размерах выборки . $s(P)\sim \text{Gamma}(\alpha\approx8,\beta\approx18)$

$\begin{array}{ccl} P & s (P) & cdf (s (P)) \\ {1, 8, 2, 3, 4, 1, 5, 2, 3, 6, 1, 4, 2, 3, 7, 1, 5, 2, 4, 3} & \frac{11}{9} \approx 1 & < 10^{- 5} \\ {8, 2, 3, 4, 1, 6, 5, 2, 3, 4, 1, 7, 1, 2, 3, 5, 4, 1, 2, 3} & \frac{140}{9} \approx 16 & < 10^{- 4} \\ {3, 6, 5, 1, 3, 4, 2, 1, 2, 7, 8, 5, 2, 4, 1, 3, 3, 2, 1, 4} & \frac{650}{9} \approx 72 & 0.05 \\ {3, 1, 3, 4, 8, 2, 2, 1, 1, 5, 3, 3, 2, 6, 4, 4, 2, 1, 7, 5} & \frac{1223}{9} \approx 136 & 0.45 \\ {4, 1, 1, 4, 5, 5, 1, 3, 3, 7, 1, 2, 2, 4, 3, 3, 8, 2, 2, 6} & \frac{1697}{9} \approx 189 & 0.80 \end{array}$ $\begin{array}{ccl}\renewcommand\mfm[1]{\textbf{#1}} \hline P & s(P) & \text{cdf}(s(P)) \\ \hline \{\po, \ss8, \pt, \pth, \pf, \po, \pv, \pt, \pth, \ss6, \po, \pf, \pt, \pth, \ss7, \po, \pv, \pt, \pf, \pth\} & \frac{11}9\approx1\, & <10^{-5} \\ \{\ss8, \pt, \pth, \pf, \po, \ss6, \pv, \pt, \pth, \pf, \po, \ss7, \po, \pt, \pth, \pv, \pf, \po, \pt, \pth\} & \frac{140}9\approx16 & <10^{-4} \\ \{\pth, \ss6, \pv, \po, \pth, \pf, \pt, \po, \pt, \ss7, \ss8, \pv, \pt, \pf, \po, \pth, \pth, \pt, \po, \pf\} & \frac{650}9\approx72 & \phantom{<1}0.05 \\ \{\pth, \po, \pth, \pf, \ss8, \pt, \pt, \po, \po, \pv, \pth, \pth, \pt, \ss6, \pf, \pf, \pt, \po, \ss7, \pv\} & \frac{1223}9\approx136 & \phantom{<1}0.45 \\ \{\pf, \po, \po, \pf, \pv, \pv, \po, \pth, \pth, \ss7, \po, \pt, \pt, \pf, \pth, \pth, \ss8, \pt, \pt, \ss6\} & \frac{1697}9\approx189 & \phantom{<1}0.80 \\ \hline \end{array}$

Вероятность того, что две случайные перестановки действительны (как диффузная, так и ненормальная), составляет около . $v\approx(0.03)(0.0001)^2\approx10^{-10}$

Неэффективные алгоритмы

Обычный «быстрый» алгоритм для генерации случайного отклонения набора основан на отклонении:

сделать
     P ← случайная_перестановка ( D )
до is_derangement ( D , P )
возврат P

что занимает примерно итераций, поскольку существует примерно возможных неисправностей. Однако основанный на отбраковке рандомизированный алгоритм не был бы эффективен для этой задачи, так как он принимал бы порядок итераций. $e$ $n!/e$ $1/v\approx10^{10}$

В алгоритме, используемом Sage , случайное нарушение мультимножества «формируется путем случайного выбора элемента из списка всех возможных нарушений». Тем не менее, это тоже неэффективно, поскольку существует допустимых перестановок для перечисления, и, кроме того, для этого в любом случае потребуется алгоритм, просто выполняющий это. $v\,|\mfS_{\msD}|^2\approx10^{16}$

Дальнейшие вопросы

В чем сложность этой проблемы? Может ли оно быть сведено к какой-либо знакомой парадигме, такой как сетевой поток, раскраска графа или линейное программирование?

— hftf
источник

Что касается вашего определения «с интервалом», разве вы не хотите, чтобы для с как страж? То есть, один элемент должен быть посередине, два должны разделить перестановку на трети и так далее.

d (i, j) - n / (n_{i} + 1)

$d(i,j) - n/(n_i + 1)$

0 \leq i \leq j \leq n + 1

$0 \leq i \leq j \leq n+1$

P_{0} = P_{n + 1} = i

$P_0 = P_{n+1} = i$

— Рафаэль

Что произойдет, если для зла (маленький, но достаточно большой); у нас вообще есть диффузные перестановки? Мы, конечно, не можем найти двух ненормальных! Кажется, что ни один элемент не может встречаться более раз.

S = {1^{n - k}, 2^{k}}

$S = \{ 1^{n-k}, 2^k\}$

k

$k$

n / 2

$n/2$

— Рафаэль

Каково соотношение всех пар ненормальных перестановок среди всех пар диффузных перестановок? Точно так же, из всех пар ненормальных перестановок, сколько состоит из двух диффузных? (Если какое-либо соотношение «высокое», мы можем сосредоточить свои усилия на одной половине процесса, оставив другую на отклонении.)

— Рафаэль

@Raphael (# 3а) Из 1 миллиона случайных перестановок , эти 561 диффузные те имели . пар неисправны.

D

$\mathsf D$

s (P) \leq 30

$s(P)\le 30$

6118 / (\binom{561}{2}) = 6118 / 157080 \approx 3.9 %

$6118/\binom{561}{2}=6118/157080\approx3.9\%$

— hftf

@Raphael (# 3b) Из 10 миллионов случайных пар перестановок 306893 пары были невменяемыми. Только 29 из этих пар имели обе перестановки с . Вот гистограмма ( значения ).

D

$\mathsf D$

s (P) \leq 50

$s(P)\le50$

— hftf

Ответы:

Один из подходов: вы можете свести это к следующей проблеме: учитывая булеву формулу , выберите равномерно случайное назначение из всех удовлетворяющих назначений . Эта проблема NP-сложна, но существуют стандартные алгоритмы для генерации который приблизительно равномерно распределен, заимствуя методы из алгоритмов #SAT. Например, одна из техник состоит в том, чтобы выбрать хэш-функцию , диапазон которой имеет тщательно выбранный размер (примерно такой же, как число удовлетворяющих присваиваний ), случайным образом выбрать случайным образом значение из диапазона $\varphi(x)$ $x$ $\varphi(x)$ $x$ $h$ $\varphi$ $y$ $h$ , а затем используйте SAT-решатель, чтобы найти удовлетворительное назначение для формулы . Чтобы сделать его эффективным, вы можете выбрать как разреженную линейную карту. $\varphi(x) \land (h(x)=y)$ $h$

Это может быть отстрел блохи из пушки, но если у вас нет других подходов, которые кажутся работоспособными, вы можете попробовать это.

— DW
источник

найти это трудно следовать.

- логическое значение, а

- двоичная строка (набор двоичных переменных)? итоговое уравнение означает ...?

φ (x)

$\varphi(x)$

h (x)

$h(x)$

— vzn

некоторое расширенное обсуждение / анализ этой проблемы началось в чате cs с дополнительным фоном, который выявил некоторую субъективность в сложных требованиях проблемы, но не обнаружил никаких прямых ошибок или упущений.¹

Вот некоторый протестированный / проанализированный код, который по сравнению с другим решением, основанным на SAT, является относительно «быстрым и грязным», но его было нетривиально / сложно отладить. он слабо концептуально основан на локальной псевдослучайной / жадной схеме оптимизации, чем-то похожей, например, на 2-OPT для TSP . Основная идея состоит в том, чтобы начать со случайного решения, которое соответствует некоторому ограничению, а затем возмущать его локально, чтобы искать улучшения, жадно искать улучшения и повторять их, и заканчивать, когда все локальные улучшения были исчерпаны. Критерии разработки заключались в том, что алгоритм должен быть максимально эффективным / избегать отклонений в максимально возможной степени.

есть некоторые исследования алгоритмов расстройства [4], например, используемые в SAGE [5], но они не ориентированы на мультимножества.

Простое возмущение - это только «перестановка» двух позиций в кортеже (ах). реализация в рубине. Ниже приведен обзор / примечания с ссылками на номера строк.

qb2.rb (gist-github)

подход здесь состоит в том, чтобы начать с двух ненормальных кортежей (# 106), а затем локально / жадно улучшить дисперсию (# 107), объединенную в концепции под названием derangesperse(# 97), сохраняя неисправность. обратите внимание, что обмен двух одинаковых позиций в паре кортежей сохраняет помехи и может улучшить дисперсию, и это (часть) дисперсного метода / стратегии.

derangeподпрограмма работает слева направо на массиве (мультимножество) и свопы с элементами позже в массиве , где своп не с тем же элементом (# 10). Алгоритм завершается успешно, если без дальнейших перестановок в последней позиции два кортежа по-прежнему неисправны (# 16).

Есть 3 различных подхода к сумасшедшим начальным кортежам. 2-й кортеж p2всегда тасуется. можно начать с кортежа 1 ( p1), упорядоченного по a.«наивысшим степеням 1-го порядка» (# 128), b.тасованному порядку (# 127) c.и «наименьшим степеням 1-го порядка» («наивысшие степени последнего порядка») (# 126)

процедура дисперсии disperseболее сложна, но концептуально не так сложна. снова он использует свопы. вместо того, чтобы пытаться оптимизировать дисперсию в целом по всем элементам, он просто пытается итеративно смягчить текущий наихудший случай. Идея состоит в том, чтобы найти 1- ^й наименее рассредоточенный элемент слева направо. возмущение состоит в том, чтобы поменять местами левый или правый элементы ( x, yиндексы) наименее рассредоточенной пары с другими элементами, но никогда между парой (что всегда уменьшит дисперсию), а также пропустить попытку замены с теми же элементами ( selectв # 71) , mиндекс средней точки пары (# 65).

однако дисперсия измеряется / оптимизируется по обоим кортежам в паре (# 40) с использованием дисперсии «наименьший / левый» в каждой паре (# 25, # 44).

алгоритм пытается поменять местами самые дальние элементы 1- ^го ( sort_by / reverse# 71).

Существуют две разные стратегии true, falseдля решения, следует ли поменять местами левый или правый элемент наименьшей дисперсной пары (# 80), либо левый элемент для положения свопинга к левому / правому элементу с правой стороны, либо самый дальний левый или правый элемент в дисперсной паре от элемента подкачки.

Алгоритм завершается (# 91), когда он больше не может улучшить дисперсию (либо смещает наихудшее место дисперсии вправо, либо увеличивает максимальную дисперсию по всей паре кортежей (# 85)).

статистика выводится для отклонений свыше c1000 отклонений по 3 подходам (# 116) и c= 1000 переключений (# 97), рассматривая 2 дисперсных алгоритма для неисправной пары от отклонения (# 19, # 106). последний отслеживает общую среднюю дисперсию (после гарантированного расстройства). пример выполнения выглядит следующим образом

c       0.661000
b       0.824000
a       0.927000
[2.484, 2, 4]
[2.668, 2, 4]

это показывает, что a-trueалгоритм дает наилучшие результаты с ~ 92% неотрицания и средним наихудшим дисперсионным расстоянием ~ 2,6, и гарантированным минимумом 2 на 1000 испытаний, то есть по крайней мере 1 неравный промежуточный элемент между всеми парами одинаковых элементов. он нашел решения до 3 неравных промежуточных элементов.

алгоритм отклонения - линейное предварительное отклонение по времени, а алгоритм дисперсии (работающий на нечувствительном входе), возможно, имеет значение ~ . $O(n \log n)$

¹ проблема состоит в том, чтобы найти схемы пакетов викторины, которые удовлетворяют так называемому "фен шуй" [1] или "хорошему" случайному порядку, где "хороший" является несколько субъективным и еще не "официально" определенным количественно; автор проблемы проанализировал / свел ее к критериям отклонения / дисперсии, основанным на исследованиях сообщества викторин и «экспертов по фэн-шуй». [2] Есть разные идеи о «правилах фэн-шуй». Некоторое «опубликованное» исследование было сделано на алгоритмах, но оно появляется на ранних стадиях. [3]

[1] Пакет фэн-шуй / QBWiki

[2] Пакеты для викторины и фэн-шуй / Лифшиц

[3] Вопрос размещения , форум ресурсного центра HSQuizbowl

[4] Генерация случайных расстройств / Мартинес, Панхольцер, Продингер

[5] Алгоритм безумного ума (python) / McAndrew

— ВЗН
источник

К тому же, подумал он, в сумасшедшей рутине есть сбой, и он не всегда сходит с ума. позиция обмена может продвигаться, ничего не меняя. Theres простое исправление, чтобы проверить успех правильно.

— ВЗН