Как доказать, что язык не является регулярным?

76

Мы узнали о классе обычных языков . Он характеризуется каким-либо одним понятием среди регулярных выражений, конечных автоматов и леволинейных грамматик, поэтому легко показать, что данный язык является регулярным. $\mathrm{REG}$

Как мне показать обратное, хотя? Мой ТА был непреклонен, что для этого нам нужно было бы показать для всех регулярных выражений (или для всех конечных автоматов, или для всех леволинейных грамматик), что они не могут описать язык под рукой. Это кажется большой задачей!

Я читал о какой-то лемме прокачки, но она выглядит действительно сложной.

^{Предполагается, что это будет справочный вопрос, собирающий обычные методы доказательства и примеры применения. Смотрите здесь для того же вопроса о контекстно-свободных языках.}

— Рафаэль
источник

60

Доказательство от противоречия часто используется, чтобы показать, что язык не является регулярным: пусть свойство true для всех обычных языков, если ваш конкретный язык не проверяет , то он не является регулярным. Можно использовать следующие свойства: $P$ $P$

Насосная лемма, как показано в ответе Дейва ;
Свойства замыкания регулярных языков (операции над множествами, конкатенация, звезда Клини, зеркало, гомоморфизмы);
Регулярный язык имеет конечное число префиксных классов эквивалентности, теорема Майхилла – Нерода .

Чтобы доказать, что язык не является регулярным с использованием свойств замыкания, метод состоит в том, чтобы комбинировать с регулярными языками с помощью операций, которые сохраняют регулярность, чтобы получить язык, о котором известно, что он не является регулярным, например, архетипический язык . Например, пусть . Пусть является регулярным, как и обычные языки закрыты под комплементарности так «s дополнение . Теперь возьмем пересечение и которое является регулярным, мы получим которое не является регулярным. $L$ $L$ $I= \{ a^n b^n \mid n \in \mathbb{N} \}$ $L= \{a^p b^q \mid p \neq q \}$ $L$ $L$ $L^c$ $L^c$ $a^\star b^\star$ $I$

Теорема Майхилла – Нерода может быть использована для доказательства того, что не регулярна. Для , . Все классы различны и существует счетная бесконечность таких классов. Поскольку обычный язык должен иметь конечное число классов, не являюсь регулярным. $I$ $p \geq 0$ $I/a^p= \{ a^{r}b^rb^p\mid r \in \mathbb{N} \}=I.\{b^p\}$ $I$

— Ромуальд
источник

3

Не знал о теореме Майхилла-Нероде, круто!

— Даниил

В Википедии также есть раздел о количестве слов на обычном языке: если вы можете доказать, что ваш язык не соответствует характеристике, то ваш язык не является регулярным: en.wikipedia.org/wiki/…

— Alex ten Brink

@Daniil, регулярные выражения не могут сосчитать , мне кажется популярной неформальной формулировкой теоремы Майхилла-Нероде.

— AProgrammer

@AlextenBrink: это аккуратно. Я предполагаю, что константы в утверждении являются собственными значениями лапласиана автомата? Это было бы хорошим дополнением к ответам здесь.

— Луи

@Louis: на самом деле, мы вообще не нашли ссылки на эту теорему, поэтому, если вы знаете больше об этом ... Также см .: cs.stackexchange.com/questions/1045/…

— Alex ten Brink

37

Основываясь на ответе Дэйва, вот пошаговое «руководство» по использованию леммы прокачки.

Вспомните лемму прокачки (взято из ответа Дэйва, взято из Википедии):

Пусть обычный язык. Тогда существует целое число (зависящее только от ), такое, что каждая строка в длиной не менее ( называется «длиной накачки») может быть записана как (т. может быть делится на три подстроки), удовлетворяющих следующим условиям: $L$ $n\ge 1$ $L$ $w$ $L$ $n$ $n$ $w = xyz$ $w$

$|y| \ge 1$

$|xy| \le n$ и

А «накачкой» еще в : для всех , . $w$ $L$ $i \ge 0$ $xy^iz \in L$

Предположим, что вам дан какой-то язык и вы хотите показать, что он не является регулярным с помощью леммы прокачки. Доказательство выглядит так: $L$

Предположим , что является регулярным. $L$
Если это регулярно, то лемма о накачке говорит, что существует некоторое число которое является длиной накачки. $n$
Выберите конкретное слово длина которого больше . Трудно понять, какое слово взять. $w\in L$ $n$
Рассмотрим ВСЕ способы разбиения на 3 части, , где и не пусто. Для каждого из этих способов, показать , что она не может быть накачан: всегда существует некоторый такое , что . $w$ $w=xyz$ $|xy|\le n$ $y$ $i\ge 0$ $xy^iz \notin L$
Вывод: слово не может быть «накачано» (независимо от того, как мы разбиваем его на $w$ $xyz$ ), что противоречит лемме о накачке, т. Е. Наше предположение (шаг 1) неверно: $L$ не является регулярным.

Прежде чем перейти к примеру, позвольте мне повторить Шаг 3 и Шаг 4 (именно здесь большинство людей ошибаются). На шаге 3 вы должны выбрать одно конкретное слово в $L$ . запишите это явно, как «00001111» или « $a^nb^n$ ». Примеры для вещей, которые не являются определенным словом: « $w$ » или «слово с префиксом 000».

С другой стороны, на шаге 4 вам нужно рассмотреть более одного случая. Например, если $w=000111$ недостаточно сказать $x=00, y=01, z=00$ , а затем достичь противоречия. Вы также должны проверить $x=0, y=0, z=0111$ и $x=\epsilon, y=000, z=111$ и все другие возможные варианты.

Теперь давайте проделаем шаги и докажем, что $L= \{ 0^k1^{2k} \mid k>0 \}$ не является регулярным.

Предположим, что $L$ регулярно.
Пусть $n$ будет длиной накачки, определенной леммой накачки.
Пусть $w = 0^n 1^{2n}$ .
(проверка здравомыслия: $|w|\gt n$ мере необходимости. Почему это слово? другие слова могут работать так же хорошо. Требуется некоторый опыт, чтобы придумать правильное $w$ ). Опять же, обратите внимание, что $w$ - это конкретное слово: $\underbrace{000\ldots0}_{n \text{ times}}\underbrace{111\ldots1}_{2n \text{ times}}$ .
Теперь давайте начнем рассматривать различные случаи разбиения $w$ на $xyz$ с помощью $|xy|\le n$ и $|y|>0$ . Так как $|xy|<n$ независимо от того, как мы разделим $w$ , $x$ будет состоять только из 0, и $y$ будет состоять из . Предположим, что $|x|=s$ и $|y|=k$ . Мы должны рассмотреть все варианты, то есть все возможные $s,k$ таких, что $s\ge 0, k\ge 1$ и $s+k \le n$ . ДЛЯ ЭТОГО $L$ доказательство для всех этих случаев одно и то же, но в целом оно может быть другим.
возьмем $i=0$ и рассмотрим $xy^iz = xz$ . это слово НЕ в $L$ так как оно имеет вид $0^{n-k}1^{2n}$ (независимо от того, что $s$ и $k$ были), и поскольку $k \ge 1$ , это слово отсутствует в $L$ и мы получаем противоречие.
Таким образом, наше предположение неверно, и $L$ не является регулярным.

Клип на YouTube, который объясняет, как использовать лемму накачки в том же духе, можно найти здесь

— Ран Г.
источник

1

Это н, что длина накачки в этом определении!

— saadtaame

Основанием для этого является то, что любая строка, которая достаточно длинна, должна пройти цикл в автомате, и если вы пройдете этот цикл один раз, вы можете пройти его любое количество раз.

— gnasher729

28

Из Википедии, язык прокачки для обычных языков выглядит следующим образом:

Пусть обычный язык. Тогда существует целое число (в зависимости только от ), такое, что каждая строка в длиной не менее ( называется «длиной накачки») может быть записана как (т. может разделить на три подстроки), удовлетворяя следующим условиям: $L$ $p\ge 1$ $L$ $w$ $L$ $p$ $p$ $w = xyz$ $w$

$|y| \ge 1$

и $|xy| \le p$

для всех , . - подстрока, которую можно перекачать (удалить или повторить любое количество раз, а полученная строка всегда находится в ). $i \ge 0$ $xy^iz \in L$
$y$ $L$

(1) означает, что перекачиваемая петля y должна иметь длину не менее одной; (2) означает, что цикл должен происходить в пределах первых p символов. Нет ограничений по x и z.

Проще говоря, для любого регулярного языка L любое достаточно длинное слово можно разбить на 3 части. т.е. , таким образом, что все строки для также находятся в . $w\in L$ $w = xyz$ $xy^kz$ $k\ge 0$ $L$

Теперь давайте рассмотрим пример . Пусть . $L=\{(01)^n2^n\mid n\ge0\}$

Чтобы показать, что это не регулярно, вам нужно рассмотреть, как выглядят все разложения , так что можно определить все возможные вещи x, y и z, что (мы решили посмотреть на это конкретное слово длиной , где - длина накачки). Нам нужно рассмотреть, где находится часть строки. Он может пересекаться с первой частью и, следовательно, будет равен , $w=xyz$ $xyz=(01)^p2^p$ $3p$ $p$ $y$ $(01)^{k+1}$ , или для некоторого(не забывайте, что). Он может пересекаться со второй частью, что означает, что , для некоторого. Или он может перекрывать две части слова и будет иметь вид , $(10)^{k+1}$ $1(01)^k$ $0(10)^k$ $k\ge 0$ $|y|\ge 1$ $y=2^k$ $k>0$ $(01)^{k+1} 2^l$ , или , дляи. $(10)^{k+1} 2^l$ $1(01)^k 2^l$ $0(10)^k 2^l$ $k\ge0$ $l\ge1$

Теперь прокачайте каждое из них, чтобы получить противоречие, которое будет словом не на вашем языке. Например, если мы возьмем , лемма прокачки говорит, например, что должно быть в языка, при соответствующем выборе и . Но это слово не может быть в языке, так как стоит перед . $y=0(10)^k2^l$ $xy^2z=x0(10)^k2^l0(10)^k2^lz$ $x$ $z$ $2$ $1$

В других случаях число будет больше, чем число или наоборот, или приведет к тому, что слова не будут иметь структуру , например, имея два подряд. $(01)$ $2$ $(01)^n2^n$ $0$

Не забывай это . Здесь полезно сократить доказательство: многие из приведенных выше разложений невозможны, поскольку они могут сделать часть слишком длинной. $|xy| \le p$ $z$

Каждый из приведенных выше случаев должен приводить к такому противоречию, которое тогда будет противоречить лемме о накачке. Вуаля! Язык не будет регулярным.

— Дэйв Кларк
источник

| x y | \leq p

$|xy|\le p$

@ Жиль: Я даже не уверен, что означает добавленное вами предложение.

— Дейв Кларк

k

$k$

z

$z$

k

$k$

l

$l$

1

(01)^{2 p} 2^{2 p}

$(01)^{2p}2^{2p}$

y

$y$

2

$2$

14

$L \subseteq \Sigma^*$

$\qquad \displaystyle S_L(z) = \sum\limits_{n \geq 0} |L \cap \Sigma^n|\cdot z^n$

$L$

Следующее утверждение верно [ FlSe09 , p52]:

$\qquad \displaystyle L \in \mathrm{REG} \quad \Longrightarrow \quad S_L \text{ rational}$

$S_L(z) = \frac{P(z)}{Q(z)}$ $P,Q$

$S_L$

Пример. Рассмотрим язык правильно вложенных слов в скобках, т.е. язык Дейка . Генерируется однозначной грамматикой

$\qquad \displaystyle S \to [S]S \mid \varepsilon$

который можно перевести в уравнение

$\qquad \displaystyle S(z) = z^2S^2(z) + 1$

одно решение (одно со всеми положительными коэффициентами) из которых

$\qquad \displaystyle \mathcal{S}(z) = \frac{1 - \sqrt{1 - 4z^2}}{2z^2}$

$S_L = \mathcal{S}$ $\mathcal{S}$

Доказательство утверждения для регулярных языков работает через грамматики и немедленно переходит к линейным грамматикам (коммутативность умножения).

$\ \$ [FlSe09] Аналитическая комбинаторика П. Флайолета и Р. Седжвика (2009) [Kuic70] Об энтропии контекстно-свободных языков . У. Куйч (1970)
$\ \$

— Рафаэль
источник

13

$L = \{(01)^m 2^m \mid m \ge0\}$

Итак, вы думаете, лемма прокачки выглядит сложной? Не беспокойся Вот немного другой подход, который также скрыт в ответе @ Romuald. (Тест: где?)

Давайте начнем с того, что помним, что каждый регулярный язык принимается детерминированным автоматом конечных состояний (DFA). DFA - это конечный ориентированный граф, в котором каждая вершина имеет ровно одно ребро на каждую букву в алфавите. Строки дают вам обход в графе, основанном на вершине, помеченной как «начало», и DFA принимает, если этот обход заканчивается в вершине, помеченной как «принять». (Вершины называются «состояниями», потому что разные области математики любят составлять свою собственную терминологию для одного и того же.)

$a$ $b$ $c$ $ac$ $bc$

$L$ $a$ $b$ $c$ $ac$ $bc$ $L$

$a$ $b$ $c$ $ac$ $bc$ $m$ $\{(01)^i : 0\le i\le m+1\}$ $a=(01)^p$ $b=(01)^q$ $p\neq q$ $a2^p$ $b2^p$

Приятно то, что пример действительно является шаблоном для доказательства того, что языки не являются регулярными:

$\{a_i :i\in\mathbb{N}\}$ $t_i$ $a_it_i$ $a_it_j$ $i\neq j$
$a_i$

Есть и другие приемы, но этот поможет легко справиться с большинством домашних заданий.

Редактировать: более ранняя версия имела некоторое обсуждение того, как эта идея связана с леммой прокачки.

— Луис
источник

Я не думаю, что воспроизведение доказательства леммы прокачки в целом полезно, но YMMV. Понимание доказательства хорошо в любом случае; это непосредственно связано с рядом замыканий и другими интересными свойствами конечных автоматов и регулярных языков. Однако я категорически не согласен с последним предложением: теория автоматов совсем не скучная и, конечно, не самая скучная часть теоретических занятий.

— Рафаэль

@ Луис В своем ответе, как вы пришли с этим утверждением we see that a2p is in the language and b2p is not, so this language can't be regular.в прошлом. Пожалуйста, не могли бы вы привести пример

— Химаншу

a

$a$

b

$b$

q_{1}

$q_1$

2^{p}

$2^p$

q_{2}

$q_2$

a

$a$

b

$b$

7

После ответа здесь я опишу метод доказательства нерегулярности, основанный на колмогоровской сложности.

Этот подход обсуждается в статье «Новый подход к теории формального языка по колмогоровской сложности» , Ming Li и Paul MB Vitanyi (см. Раздел 3.1).

$K(x)$ $x$ $M$ $M(\epsilon)=x$

$L\subseteq \Sigma^*$ $c$ $L$ $x\in\Sigma^*$ $y$ $n'th$ $L_x=\left\{y\in \Sigma^*|xy\in L\right\}$ $K(y)\le O(\log n)+c$

$x\in\Sigma^*$ $n'th$ $L_x$

$L$
$x$
$n$

$x$ $x$ $L$ $n$ $\log n$ $y$

$L_x$ $L$ $x\in\Sigma^*$ $L$

$L=\left\{1^p | \text{p is prime}\right\}$ $L=\left\{0^n1^n| n\ge 0\right\}$

$x\in\left\{0,1\right\}^*$ $y_i^x$ $i'th$ $L_x$ $y_1^{0^i}=1^i$ $x$ $x=0^i$ $n=1$ $\forall i\ge 0 : K(y_1^{0^i})\le c$ $y_1^{0^i}=1^i$ $1^i$ $x$ $x=0^n$ $n$ $K(0^n)\ge \log n$ $y_1^x=1^n$ $K(1^n)<c$ $n>2^c$

— Ariel
источник

7

$\{ \sigma \}$ $A \subseteq \mathbb{N}$

L (A) = {σ^{n} : n \in A} .

$L(A) = \{ \sigma^n : n \in A \}.$

$A \subseteq \mathbb{N}$

$L(A)$

$L(A)$

$n_0,m \geq 1$ $n \geq n_0$ $n \in A$ $n+m \in A$ $A$

$a_i = 1_{i \in A}$ $0.a_0a_1a_2\ldots$

$\sum_{i \in A} x^i$

$\rho$ $\rho$

$A \subseteq \mathbb{N}$ $L(A)$

$\rho = \lim_{n\to\infty} \frac{|A \cap \{1,\ldots,n\}|}{n}$ $A$

$\rho = 0$ $A$

$\rho = 1$ $A$ $\overline{A}$

$L(\{2^n : n \geq 0\})$

— Юваль Фильмус
источник

4

Класс регулярных языков замыкается различными операциями замыкания, такими как объединение, пересечение, дополнение, гомоморфизм, регулярное замещение, обратный гомоморфизм и другие. Это может быть использовано для доказательства того, что данный язык не является регулярным путем сокращения до языка, который, как известно, является нерегулярным.

$\{a^nb^n : n \geq 0\}$ $\{w \in \{a,b\}^* : \#_a(w) = \#_b(w)\}$ $a$ $b$

$L = \{w \in \{a,b\}^* : \#_a(w) = \#_b(w)\}$ $L \cap a^*b^*$ $L \cap a^*b^* = \{a^n b^n : n \geq 0\}$

$L' = \{(0+1)^n2(0+1)^n : n \geq 0\}$

$h$ $h(0) = 0$ $h(1) = 1$ $h(2) = \epsilon$ $L'$ $h(L' \cap 0^*21^*) = \{ 0^n 1^n : n \geq 0 \}$

$L'' = \{0^n10^n : n \geq 0\}$

Пусть - гомоморфизм, заданный , , . Если бы были регулярными, то и бы, но это только язык из предыдущего примера. $k$ $k(0) = 0$ $k(1) = 0$ $k(2) = 1$ $L''$ $k^{-1}(L'')$ $L'$

— Юваль Фильмус
источник

3

Используйте теорию Михилла – Нерода.

Пусть будет языком. Мы говорим , что два слова являются неэквивалентных по модулю (или: по отношению к ) , если существует слово такое , что именно один из в . В любом DFA для , (упражнение). Это предполагает следующий критерий: $L$ $x,y$ $L$ $L$ $z$ $xz,yz$ $L$ $L$ $\delta(q_0,x) \neq \delta(q_0,y)$

Пусть будет языком. Предположим, что существует бесконечное множество попарно неэквивалентных слов (то есть бесконечное множество такое, что любые два неравных неэквивалентны по модулю ). Тогда не является регулярным. $L$ $S$ $x,y \in S$ $L$ $L$

Вот простой пример применения этого критерия:

Язык не является регулярным. $L = \{a^nb^n : n \geq 0\}$

Доказательство. Пусть . Покажем , что любые два разных слова в неэквивалентны по модулю . Действительно, пусть , где . Тогда , но . $S = \{ a^n : n \geq 0 \}$ $S$ $L$ $a^i,a^j \in S$ $i \ne j$ $a^ib^i \in L$ $a^ib^j \notin L$

Важной особенностью этого метода является то, что он гарантированно будет успешным: если не является регулярным, то существует бесконечное множество попарно неэквивалентных слов. Это является следствием теоремы Майхилла – Нерода . Вкратце, эквивалентность по модулю (отрицание неэквивалентности по модулю определенное выше) является отношением эквивалентности, и язык регулярен тогда и только тогда, когда число классов эквивалентности по модулю конечно. Если не является регулярным, взятие одного слова из каждого класса эквивалентности составило бы бесконечный набор неэквивалентных слов. $L$ $L$ $L$ $L$ $L$ $L$

— Юваль Фильмус
источник

1

С учетом языка , для каждой строки существует множество строк таких , что . Каждый такой набор может использоваться как состояние в конечном автомате. $L$ $x$ $y$ $xy \in L$

Все, что вам нужно сделать, это показать, что количество таких наборов не является конечным.

В качестве примера, пусть . Учитывая для некоторого , единственная строка такая, что является . Таким образом, для каждого у нас есть различное множество, что означает, что не является регулярным. $L = {a^nb^n: n ≥ 0}$ $x = a^nb$ $n ≥ 1$ $y$ $xy \in L$ $y = b^{n-1}$ $n$ $L$

Таким образом, в общем, если вы найдете бесконечный набор строк такой, что каждый дает различный набор то язык не может быть распознан конечным автоматом и, следовательно, не является регулярным. $x$ $x$ $\{y: xy \in L\}$

— gnasher729
источник

Разве это не просто Myhill-Nerode?

— Дэвид Ричерби