Как доказать, что язык не является контекстно-свободным?

89

Мы узнали о классе контекстно-свободных языков . Он характеризуется как контекстно-свободными грамматиками, так и автоматами, работающими на понижение, поэтому легко показать, что данный язык не зависит от контекста. $\mathrm{CFL}$

Как мне показать обратное, хотя? Моя ТА была непреклонна, что для этого нам пришлось бы показать всем грамматикам (или автоматам), что они не могут описать язык под рукой. Это кажется большой задачей!

Я читал о некоторой лемме прокачки, но она выглядит действительно сложной.

— Рафаэль
источник

Ntpick: неразрешимо показать, является ли язык контекстным.

— reinierpost

1

@reinierpost Я не понимаю, как ваш комментарий относится к вопросу. Речь идет о доказательстве , а не о решении (алгоритмически).

— Рафаэль

Просто делает точку , что это не легко показать , что язык является контекстно-свободной, в целом . Если это легко сделать с помощью frafl, это должно быть связано с определенными особыми условиями, которые не выполняются для языков в целом, например, с предоставлением автомата нажатия, который описывает язык.

— reinierpost

@reinierpost Эта линия рассуждений предполагает, что неразрешимое подразумевает (равно?) трудно доказать. Интересно, правда ли это?

— Рафаэль

69

Чтобы мне известен насосная лемма является , безусловно , самым простым и наиболее часто используемых методом. Если вам сложно, попробуйте сначала обычную версию , это не так уж плохо. Есть несколько других средств для языков, которые далеки от контекста. Например, неразрешимые языки обычно не являются контекстно-свободными.

Тем не менее, я также заинтересован в других методах, кроме леммы прокачки, если таковые имеются.

РЕДАКТИРОВАТЬ: Вот пример для леммы накачки: предположим, что язык зависит от контекста ( является набором простых чисел). Насосная лемма имеет много квантификаторов , поэтому я сделаю это немного похоже на игру: $L=\{ a^k \mid k ∈ P\}$ $P$ $∃/∀$

Лемма прокачки дает вам $p$
Вы даете слово языка длиной не менее $s$ $p$
Насосная лемма переписывает это так: с некоторыми условиями ( и ) $s=uvxyz$ $|vxy|≤p$ $|vy|≥1$
Вы даете целое число $n≥0$
Если не в , вы выиграли, не является контекстно-свободным. $uv^nxy^nz$ $L$ $L$

Для этого конкретного языка для любой (с и является простым числом) сделает свое дело. Тогда лемма прокачки дает вам с . Чтобы опровергнуть контекстную свободу, вам нужно найти такой, чтоне простое число. $s$ $a^k$ $k≥p$ $k$ $uvxyz$ $|vy|≥1$ $n$ $|uv^nxy^nz|$

| u v^{n} x y^{n} z | = | s | + (n - 1) | v y | = k + (n - 1) | v y |

$|uv^nxy^nz|=|s|+(n-1)|vy|=k+(n-1)|vy|$

И тогда будет делать: не является простым , так . Лемма прокачки не может быть применена, поэтому не является контекстно-свободной. $n=k+1$ $k+k|vy|=k(1+|vy|)$ $uv^nxy^nz\not\in L$ $L$

Второй пример - это язык . Мы (конечно) должны выбрать строку и показать, что нет никакого способа, которым она может быть разбита на эти пять частей, и чтобы каждая производная перекачиваемая строка оставалась на языке. $\{ww \mid w \in \{a,b\}^{\ast}\}$

Строка является подходящим выбором для этого доказательства. Теперь нам просто нужно посмотреть, где могут быть и . Ключевыми частями является то, что в или должно быть что-то (возможно, оба), и что и (и ) содержатся в подстроке длины поэтому они не могут быть слишком далеко друг от друга. $s=a^{p}b^{p}a^{p}b^{p}$ $v$ $y$ $v$ $y$ $v$ $y$ $x$ $p$

Эта строка имеет несколько возможностей для определения местоположения и , но оказывается, что некоторые случаи на самом деле выглядят довольно схожими. $v$ $y$

v y ∈ b ∗ a b | V y | = k ≤ p или . Итак, оба они содержатся в одном из разделов непрерывного s или s. Это относительно легкий случай, чтобы спорить, так как это не имеет значения, в каком они находятся. Предположим, что .
- Если они находятся в первом разделе s, то когда мы качаем, первая половина новой строки - , а вторая - . Очевидно, что это не имеет форму . $a$ $a^{p+k}b^{p-k/2}$ $b^{k/2}a^{p}b^{p}$ $ww$
- Аргумент для любого из трех других разделов работает в основном одинаково, именно там и заканчиваются в индексах. $k$ $k/2$
охватывает два раздела. В этом случае перекачиваемого вниз ваш друг. Опять же, есть несколько мест, где это может произойти (3, если быть точным), но я просто сделаю одно иллюстративное, а остальное должно быть легко выяснить.
- Предположим, что перекрывает границу между первым разделом и первым разделом . Пусть (не имеет значения, где именно s и s находятся в и , но мы знаем, что они в порядке). Затем, когда мы откачиваем (то есть, случай ), мы получаем новую строку , а затем , если может быть разделена на , средняя точка должна быть где - то во второй секции, так что первая половина $vxy$ $a$ $b$ $vy = a^{k_{1}}b^{k_{2}}$ $a$ $b$ $v$ $y$ $i=0$ $s'=a^{p-k_{1}}b^{p-k_{2}}a^{p}b^{p}$ $s'$ $ww$ $a$ $a^{p-k_{1}}b^{p-k_{2}}a^{(k_{1}+k_{2})/2}$ и вторая половина - . Очевидно, что это не одна и та же строка, поэтому мы не можем поместить туда и . $a^{p-(k_{1}+k_{2})/2}b^{p}$ $v$ $y$

Остальные случаи должны быть довольно прозрачными - это те же самые идеи, просто помещая и в другие 3 точки в первом случае и 2 точки во втором случае. Во всех случаях, однако, вы можете накачать его таким образом, чтобы упорядоченность была явно испорчена, когда вы разделяете строку пополам. $v$ $y$

— jmad
источник

на самом деле, игра Козена - это то, что нужно.

— Сократ

45

Лемма Огдена

Лемма (Огден). Пусть будет контекстно-свободным языком. Тогда существует постоянная такая, что для каждого и любого способа пометить или более позиций (символов) как «выделенные позиции», тогда можно записать как , так что $L$ $N$ $z\in L$ $N$ $z$ $z$ $z=uvwxy$

$vx$ есть хотя бы одна отличительная позиция.

$vwx$ имеет не более выдающихся позиций. $N$

Для всех , . $i\geq 0$ $uv^iwx^iy\in L$

Пример. Пусть . Предположим, что зависит от контекста, и пусть будет константой, определенной леммой Огдена. Пусть (Который принадлежит ), и предположим, что мы помечаем как выделенные все позиции символа (то есть первые позиций ) , Пусть - разложение удовлетворяющее условиям леммы Огдена. $L=\{a^ib^jc^k:i\neq j,j\neq k,i\neq k\}$ $L$ $N$ $z=a^Nb^{N+N!}c^{N+2N!}$ $L$ $a$ $N$ $z$ $z=uvwxy$ $z$

Если или содержат разные символы, тогда , потому что будут символы в неправильном порядке. $v$ $x$ $uv^2wx^2y\notin L$
По крайней мере, один из и должен содержать только символы , потому что только были выделены. Таким образом, если или , то . Пусть, Тогда , что означает, что делит, Пусть . Тогда должна принадлежать . Однако . Так как имеет ровно символов , то $v$ $x$ $a$ $a$ $x\in L(b^*)$ $x\in L(c^*)$ $v\in L(A^+)$ $p=|v|$ $1\leq p\leq N$ $p$ $N!$ $q=N!/p$ $z'=uv^{2q+1}wx^{2q+1}y$ $L$ $v^{2q+1}=a^{2pq+p}=a^{2N!+p}$ $uwy$ $N-p$ $a$ $z'$ имеет символов . Но и и не имеют 's, поэтому также имеет символов , что означает , что противоречит лемме Огдена. Аналогичное противоречие возникает, если или . Мы заключаем, что не является контекстно-свободным. $2N!+N$ $a$ $v$ $x$ $c$ $z'$ $2N!+N$ $c$ $z'\notin L$ $x\in L(A^+)$ $x\in L(c^*)$ $L$

Упражнение. Используя лемму Огдена, покажите, что не является контекстно-свободным. $L=\{a^ib^jc^kd^{\ell}:i=0\text{ or }j=k=\ell\}$

Насосная лемма

Это частный случай леммы Огдена, в которой все позиции различаются.

Лемма. Пусть будет контекстно-свободным языком. Тогда существует постоянная такая , что для каждого , можно записать в виде , таким образом, что $L$ $N$ $z\in L$ $z$ $z=uvwxy$

$|vx|>0$ .

$|vwx|\leq N$ .

Для всех , . $i\geq 0$ $uv^iwx^iy\in L$

Теорема Париха

Это даже более технически, чем лемма Огдена.

Определение. Пусть . Мы определяем помощью где - количество появлений в . $\Sigma=\{a_1,\ldots,a_n\}$ $\Psi_{\Sigma}:\Sigma^*\to\mathbb{N}^n$

Ψ_{Σ} (w) = (m_{1}, \dots, m_{n}),

$\Psi_{\Sigma}(w)=(m_1,\ldots,m_n),$

m_{i}

$m_i$

a_{i}

$a_i$

w

$w$

Определение. Подмножество из называется линейным, если его можно написать: $S$ $\mathbb{N}^n$

S = {u_{0} + \sum_{1 \leq i \leq k} a_{i} u_{i} : for some set of u_{i} \in N^{n} and a_{i} \in N}

$S = \{\mathbf{u_0} + \sum_{1 \le i \le k} a_i \mathbf{u_i} : \text{ for some set of $\mathbf{u_i} \in \mathbb{N}^n$ and $a_i \in \mathbb{N}$}\}$

Определение. Подмножество из называется полулинейным, если оно является объединением конечного набора линейных множеств. $S$ $\mathbb{N}^n$

Теорема (Парих). Пусть - язык над . Если зависит от контекста, то является полулинейным. $L$ $\Sigma$ $L$
$Ψ_{Σ} [L] = {Ψ_{Σ} (w) : w \in L}$ $\Psi_{\Sigma}[L]=\{\Psi_{\Sigma}(w):w\in L\}$

Упражнение. Используя теорему Париха, покажите, что не является контекстно-свободным. $L=\{0^m1^n:m>n\text{ or }(m\text{ is prime and }m\leq n)\}$

Упражнение. Используя теорему Париха, покажите, что любой контекстно-свободный язык над унарным алфавитом также является регулярным.

— Janoma
источник

1

Я принял ответ Джмада, потому что в вопросе явно упоминается Лемма прокачки. Я очень ценю ваш ответ; собрать все основные методы здесь - это здорово.

— Рафаэль

1

Это хорошо, но учтите, что лемма прокачки является частным случаем леммы Огдена ;-)

— Janoma

Конечно. Тем не менее, большинство людей сначала попробуют PL; многие даже не знают ПР.

— Рафаэль

1

Теорема Гинзбурга и Спанье, основанная на теореме Париха, дает необходимое и достаточное условие свободы контекста в ограниченном случае. math.stackexchange.com/a/122472

— sdcvvc

Можете ли вы определить «выдающиеся позиции» с точки зрения других операций? Или хотя бы неофициально? Я нахожу определение дословно скопированного OL во многих разных местах, но ни одно из них до сих пор не пыталось объяснить, что это значит.

— wvxvw

34

Закрытие недвижимости

Если у вас есть небольшая коллекция , не контекстно-свободных языков часто можно использовать закрывающие свойства из , как это: $\mathrm{CFL}$

Предположим, что . Тогда по свойству замыкания X (вместе с Y) . Это противоречит который мы знаем, чтобы держать, поэтому . $L \in \mathrm{CFL}$ $L' \in \mathrm{CFL}$ $L' \notin \mathrm{CFL}$ $L \notin \mathrm{CFL}$

Это часто короче (и часто менее подвержено ошибкам), чем использование одного из других результатов, которые используют меньше предварительных знаний. Это также общая концепция, в которой могут применяться все виды классов объектов.

Пример 1: Пересечение с обычными языками

Отметим регулярный язык, заданный любым регулярным выражением . $\mathcal L(e)$ $e$

Пусть . Как $L = \{w \mid w \in \{a,b,c\}^*, |w|_a = |w|_b = |w|_c\}$

$\qquad \displaystyle L \cap \mathcal{L}(a^*b^*c^*) = \{a^nb^nc^n \mid n \in \mathbb{N}\} \notin \mathrm{CFL}$

и замкнут при пересечении с обычными языками, . $\mathrm{CFL}$ $L \notin \mathrm{CFL}$

Пример 2: (обратный) гомоморфизм

Пусть . С гомоморфизмом $L = \{(ab)^{2n}c^md^{2n-m}(aba)^{n} \mid m,n \in \mathbb{N}\}$

$\qquad \displaystyle \phi(x) = \begin{cases} a &x=a \\ \varepsilon &x=b \\ b &x=c \lor x=d \end{cases}$

у нас есть $\phi(L) = \{a^{2n}b^{2n}a^{2n} \mid n \in \mathbb{N}\}.$

Теперь с

$\qquad \displaystyle \psi(x) = \begin{cases} aa &x=a \lor x=c \\ bb &x=b \end{cases}\quad\text{and}\quad L_1 = \{x^nb^ny^n \mid x,y \in \{a,c\}\wedge n \in \mathbb{N}\},$

мы получаем . $L_1 = \psi^{-1}(\phi(L)))$

Наконец, пересекая с обычным языком мы получаем язык . $L_1$ $L_2 = \mathcal L(a^*b^*c^*)$ $L_3 = \{a^n b^n c^n \mid n \in \mathbb{N}\}$

В общей сложности мы имеем . $L_3 = L_2 \cap \psi^{-1}(\phi(L))$

Теперь предположим, что не зависит от контекста. Тогда, поскольку замкнут относительно гомоморфизма, обратного гомоморфизма и пересечения с регулярными множествами, зависит от контекста. Но мы знаем (через лемму , если это необходимо), что не является контекстно-свободным, так что это противоречие; мы показали, что . $L$ $\mathrm{CFL}$ $L_3$ $L_3$ $L \notin \mathrm{CFL}$

Лемма об обмене

Interchange Лемма [1] предлагает необходимое условие для контекстно-свободности , что еще сильнее , чем леммы Огдена . Например, его можно использовать, чтобы показать, что

$\qquad \{xyyz \mid x,y,z \in \{a,b,c\}^+\} \notin \mathrm{CFL}$

который сопротивляется многим другим методам. Это лемма:

Пусть . Тогда существует константа такая, что для любого целого числа , любого множества и любого целого числа с существует строк с $L \in \mathrm{CFL}$ $c_L$ $n\geq 2$ $Q_n \subseteq L_n = L \cap \Sigma^n$ $m$ $n \geq m \geq 2$ $k \geq \frac{|Q_n|}{c_L n^2}$ $z_i \in Q_n$

$z_i = w_ix_iy_i$ для , $i=1,\dots,k$

$|w_1| = |w_2| = \dots = |w_k|$ ,

$|y_1| = |y_2| = \dots = |y_k|$ ,

$m \geq |x_1| = |x_2| = \dots = |x_k| > \frac{m}{2}$ и

$w_ix_jy_i \in L_n$ для всех . $(i,j) \in [1..k]^2$

Применять это означает найти и такие, что 1.-4. держать, но 5. нарушается. Пример применения, приведенный в оригинальной статье, очень многословен и поэтому здесь опущен. $n,m$ $Q_n$

В настоящее время у меня нет свободно доступной ссылки, и приведенная выше формулировка взята из препринта [1] от 1981 года. Я ценю помощь в поиске лучших ссылок. Похоже, что то же свойство было (пере) открыто недавно [2].

Другие необходимые условия

Boonyavatana и Slutzki [3] рассматривают несколько условий, сходных с леммой Pumping and Interchange.

«Лемма об обмене» для контекстно-свободных языков У. Огдена, Р. Дж. Росса и К. Винклмана (1985)
Замена лемм для регулярных и контекстно-свободных языков Т. Ямаками (2008)
R. Boonyavatana и G. Slutzki (1988). Леммы об обмене или помпе (DI) для контекстно-свободных языков.

— Рафаэль
источник

Есть хорошие закрывающие свойства богатых подклассов КЛЛ , которые могут быть использованы для того же эффекта.

— Рафаэль

19

Общепринятого метода не существует, поскольку установленные неконтекстно-свободные языки не являются полуразрешимыми (akare). Если бы существовал общий метод, мы могли бы использовать его для полуопределения этого набора.

Ситуация еще хуже, поскольку, учитывая два КЛЛ, невозможно решить, является ли их пересечение КЛЛ.

Ссылка: Хопкрофт и Ульман, «Введение в теорию автоматов, языков и вычислений», 1979.

— Кава
источник

2

Интересным (но, вероятно, более сложным и открытым вопросом) будет классификация подкласса не-КЛЛ, который может быть доказан как не-КЛЛ с использованием определенного метода.

— Каве

Я не ищу вычислимый метод, но для методов доказательства ручки и бумаги. Последнее не обязательно означает первое.

— Рафаэль

13

Более сильная версия условия Огдена ( OC ) является

Состояние Бадера-Моуры (BMC)

Язык удовлетворяет BMC, если существует константа такая, что если и мы помечаем в ней «различимые» позиции и «исключенные» позиции, с , тогда мы можем написать такой, что: $L\subseteq \Sigma^*$ $n$ $z \in L$ $d(z)$ $e(z)$ $d(z) > n^{e(z)+1}$ $z = uvwxy$

$d(vx) \geq 1$ и $e(vx) =0$

$d(vwx) \leq n^{e(vwx)+1}$ и

для каждого , в . $i \geq 0$ $uv^iwx^iy$ $L$

Мы говорим, что язык если удовлетворяет условию Бадера-Моуры. $L \in BMC(\Sigma)$ $L$

У нас есть , поэтому BMC строго сильнее, чем OC. $CFL(\Sigma) \subset BMC(\Sigma) \subset OC(\Sigma)$

Ссылка: Bader, C., Moura, A., Обобщение леммы Огдена. JACM 29, нет. 2, (1982), 404–407

— Вор
источник

2

Почему бы просто не пройти весь путь до обобщения Дёмоси и Кудлека dx.doi.org/10.1007/3-540-48321-7_18 ...

— Саламон,

@ AndrásSalamon: я этого не знал! :-) ... возможно, вы можете опубликовать его как новый ответ о том, что OC, BMC, PC являются особыми случаями (все выделенные или не исключенные позиции).

— Вор

Вы можете опубликовать его, не успевайте прямо сейчас.

— Андрас Саламон

Этот ответ выиграл бы от примера.

— Рафаэль