Нахождение самой длинной повторяющейся подпоследовательности

Учитывая строку , я хотел бы найти самую длинную повторяющуюся (по крайней мере дважды) подпоследовательность. То есть я хотел бы найти строку которая является подпоследовательностью (не обязательно должна быть смежной) такой что . То есть - это строка, половинки которой появляются дважды подряд. Обратите внимание, что является подпоследовательностью , но не обязательно подстрокой. $s$ $w$ $s$ $w=w' \cdot w'$ $w$ $w$ $s$

Примеры:

Для «ababccabdc» это будет «abcabc», потому что «abc» = «abc» и «abc» появляются (как минимум) дважды в «ababccabdc».

Для 'addbacddabcd' одним из вариантов является 'dddd', потому что 'dd' появляется дважды (я не могу использовать одну и ту же букву несколько раз, но здесь у меня 4 'd, так что все в порядке), но его длина 4. Я могу найти лучший длины 8: «abcdabcd», потому что «abcd» является подстрокой «addbacddabcd», которая появляется дважды.

Я заинтересован в поиске самой длинной повторяющейся подпоследовательности. Это также называется «найти самый длинный / самый большой квадрат», но я читал много статей, в которых квадрат определен для подстроки, а не для подпоследовательности.

Я могу легко использовать алгоритм грубой силы, который примет , итерируя по всем параметрам для точки останова в строке, и тогда у меня будет две строки, в которых я буду искать самую большую / самую длинную общую подпоследовательность, но каждая проверка будет принимать с использованием техники динамического программирования, поэтому все время будет . Я нашел более эффективный алгоритм для самой длинной общей подпоследовательности, который принимает , поэтому время выполнения будет . $O(n^3)$ $O(n^2)$ $O(n^3)$ $O(\frac{n^2}{\log n})$ $O(\frac{n^3}{\log n})$

Я ищу более эффективный алгоритм для самой длинной повторяющейся проблемы подпоследовательности. Возможно, моя идея итерации по всем точкам останова тратит слишком много времени и может быть уменьшена до меньшего количества итераций. Или, возможно, алгоритм с другим отношением может решить эту проблему.

Я искал во многих журналах и предыдущих вопросах, и большинство результатов, которые я нашел, было о подстроке, а не о подпоследовательности.

Я также читал, что это можно сделать с помощью суффиксных деревьев, но это также относилось к подстрокам, и я не уверен, что такая идея может быть расширена для подпоследовательности.

Я ищу решение, которое выполняется за время . Если существует одно время , это будет еще лучше (я не уверен, что таковое существует). $O(n^2)$ $O(n \cdot \log n)$

— Дэн Д-мэн
источник

Посмотрите деревья суффиксов или массивы суффиксов.

— псевдоним

Это очень маловероятно , что -время существует алгоритм для этой задачи, так как если это так, вы можете использовать его , чтобы побить лучший известный алгоритм поиска LCS двух длина- строк и следующим образом : Сформируйте строку , где - это копия символа , которого нет ни в ни в , а затем запустите на нем свой алгоритм -time. Обе «половины» самой длинной повторяющейся подпоследовательности обязательно начнутся с , поэтому одна половина приходит от каждого из и

o (n^{2})

$o(n^2)$

n

$n$

u

$u$

v

$v$

x u x v

$xuxv$

x

$x$

n + 1

$n+1$ $

u

$u$

v

$v$

o (n^{2})

$o(n^2)$

x

$x$

u

$u$

v

$v$ , решая проблему LCS.

— j_random_hacker

@j_random_hacker LCS может быть решена в с использованием Suffix Tree или в с использованием скользящих хешей.

O (n + m)

$\mathcal O(n+m)$

O (n \log n)

$\mathcal O(n\log n)$

— зло

@Evil: я еще не вижу, как, не могли бы вы дать немного больше деталей? (Вы уверены, что не думаете о Longest Common Sub string , которая может быть решена в тех временных сложностях?)

— j_random_hacker

@j_random_hacker Я думал, что вы сравниваете target с LCS (последовательным), но здесь, как вы упомянули, да, я даже не видел рабочего решения в n ^ 2 для Longest Common Subsequence (я нашел один динамический программный код, распространяющийся по многим страницам, который имеет недостатки, аналогично ответу с пониженным голосом). Так что просто я неправильно понял ваш комментарий, извините.

o (n^{2})

$o(n^2)$

— Зло

-1

Вот решение динамического программирования.

Предположим, что входной строкой является . Создайте таблицу , строки и столбцы которой проиндексированы по (где - длина строки), заполненная правилом Ответ - . $x_1\ldots x_n$ $T$ $0,\ldots,n$ $n$

T [i, j] = {\begin{cases} 0 & if i = 0 or j = 0, \\ T [i - 1, j - 1] + 1 & if x_{i} = x_{j} and i \neq j, \\ max (T [i - 1, j], T [i, j - 1]) & otherwise . \end{cases}

$T[i,j] = \begin{cases} 0 & \text{if $i = 0$ or $j = 0$}, \\ T[i-1,j-1] + 1 & \text{if $x_i = x_j$ and $i \neq j$}, \\ \max(T[i-1,j],T[i,j-1]) & \text{otherwise}. \end{cases}$

T [n, n]

$T[n,n]$

— jir17
источник

Предположим, что мы находимся в некотором с , и условие в вашем утверждении верно. Тогда подразумевается, что символ в позиции является частью обеих подпоследовательностей.

i, j

$i, j$

i = j + 1

$i=j+1$ ifdp[i][j] = dp[i - 1][j - 1] + 1

i - 1 = j

$i-1=j$

— j_random_hacker

Добро пожаловать в информатику! Пожалуйста, избавьтесь от исходного кода и замените его идеями, псевдокодом и аргументами правильности. Смотрите здесь и здесь для связанных мета-обсуждений.

— Рафаэль

@Raphael Рекурсивная формула не считается исходным кодом.

— Number945

@BreakingBenjamin В зависимости от вашего языка вы можете записать данное повторение более или менее буквально. Дело в том, что здесь нет объяснения.

— Рафаэль