Доказательство леммы прокачки для контекстно-свободных языков с использованием автоматов

21

Насосная лемму для регулярных языков можно доказать, рассматривая конечный автомат, распознающий язык изучал, выбирая строку с длиной больше , чем его число состояний, и применением принципа Дирихля. Однако прокачивающая лемма для языков без контекста (а также лемма Огдена, которая является несколько более общей), подтверждается рассмотрением не зависящей от контекста грамматики изучаемого языка, выбором достаточно длинной строки и просмотром дерева разбора.

Принимая во внимание сходство двух накачанных лемм, можно ожидать, что не зависящую от контекста также можно доказать аналогично обычной, рассматривая автомат с нажатием, который распознает язык, а не грамматику. Однако мне не удалось найти ссылку на такое доказательство.

Отсюда мой вопрос: есть ли доказательство прокачивающей леммы для контекстно-свободных языков, которая включает в себя только автоматы нажатия, а не грамматики?

— a3nm
источник

16

Я снова подумал об этой проблеме и думаю, что у меня есть полное доказательство. Это немного сложнее, чем я ожидал. Комментарии очень приветствуются! Обновление: я представил это доказательство на arXiv, на случай, если это кому-нибудь пригодится: http://arxiv.org/abs/1207.2819

$\DeclareMathOperator{\fp}{fp}$ $\DeclareMathOperator{\lp}{lp}$ $\newcommand{\fpp}[1]{\widehat{\fp{#1}}}$ $\newcommand{\lpp}[1]{\widehat{\lp{#1}}}$

Пусть будет контекстно-свободным языком над алфавитом . Пусть будет автоматом, который распознает , с алфавитом стека . Обозначим черезчисло состояний . Без ограничения общности мы можем предположить, что переходы выталкивают верхний символ стека и либо не помещают символ в стек, либо помещают в стек предыдущий верхний символ и какой-либо другой символ. $L$ $\Sigma$ $A$ $L$ $\Gamma$ $|A|$ $A$ $A$

Определими длина накачки, и покажет, что все такие, что имеет разложение вида такое, что , и . $p' = |A|^2 |\Gamma|$ $p = |A| (|\Gamma|+1)^{p'}$ $w \in L$ $|w| > p$ $w = u v x y z$ $|vxy| \leq p$ $|vy| \geq 1$ $\forall n \geq 0, u v^n x y^n z \in L$

Пусть такое, что . Пусть - принимающий путь минимальной длины для (представленный в виде последовательности переходов ), обозначим его длину через, Мы можем определить, для, размер стека в позиции принимающего пути. Для всех мы определяем уровень над как набор из трех индексов с такой что: $w \in L$ $|w| > p$ $\pi$ $w$ $A$ $|\pi|$ $0 \leq i < |\pi|$ $s_i$ $i$ $N > 0$ $N$ $\pi$ $i, j, k$ $0 \leq i < j < k \leq p$

$s_i = s_k, s_j = s_i + N$
для всех таких, что , $n$ $i \leq n \leq j$ $s_i \leq s_n \leq s_j$
для всех таких, что , . $n$ $j \leq n \leq k$ $s_k \leq s_n \leq s_k$

(Для примера, см. Рисунок для случая 2 ниже, который иллюстрирует уровень.) $N$

Определим уровень of как максимальный такой, что имеет уровень. Это определение мотивируется следующим свойством: если размер стека по пути становится больше, чем его уровень , то символы стека глубиной более уровней никогда не будут выталкиваться. Теперь мы будем различать два случая: либо , и в этом случае мы знаем, что одна и та же конфигурация для состояния автомата и самых верхних символов стека встречается дважды на первых шагах , или $l$ $\pi$ $N$ $\pi$ $N$ $\pi$ $l$ $l$ $l < p'$ $l$ $p+1$ $\pi$ $l \geq p'$ и должна существовать позиция укладки и расстегивания, которую можно повторять произвольное количество раз, из которой мы строим и . $v$ $y$

Случай 1. . Мы определяем конфигурации как пары состояния и последовательность из символов стека (где стеки размером менее должны быть представлены путем дополнения их до специальным пустым символом, поэтому мы используем при определении ). По определению есть таких конфигураций, что меньше . Следовательно, на первых шагах та же конфигурация встречается дважды в двух разных позициях, скажем, . Обозначить через $l < p'$ $A$ $A$ $l$ $l$ $l$ $|\Gamma| + 1$ $p$ $|A| (|\Gamma| + 1)^l$ $p$ $p+1$ $\pi$ $i < j$ $\widehat{i}$ (соответственно ) позиция последней буквы прочитанной на шаге (соответственно ) из . У нас есть . Следовательно, мы можем разложить с помощью , , , . (Через мы обозначаем буквы от включительно до эксклюзивно.) По построению . $\widehat{j}$ $w$ $i$ $j$ $\pi$ $\widehat{i} \leq \widehat{j}$ $w = u v x y z$ $y z = \epsilon$ $u = w_{0 \cdots \widehat{i}}$ $v = w_{\widehat{i} \cdots \widehat{j}}$ $x = w_{\widehat{j} \cdots |w|}$ $w_{x \cdots y}$ $w$ $x$ $y$ $|vxy| \leq p$

Мы также должны показать, что , но это следует из нашего наблюдения выше: стековые символы глубже, чем , никогда не выталкиваются, поэтому нет никакого способа различить конфигурации, которые равны в соответствии с нашим определением, и путь принятия для строится из пути путем повторения шагов между и , раз. $\forall n \geq 0, u v^n x y^n z = u v^n x \in L$ $l$ $u v^n x$ $w$ $i$ $j$ $n$

Наконец, у нас также есть , потому что если , то, потому что у нас одинаковая конфигурация на шагах и в , будет приемлемый путь для , противоречащий минимальности . $|v| > 0$ $v = \epsilon$ $i$ $j$ $\pi$ $\pi' = \pi_{0 \cdots i} \pi_{j \cdots |\pi|}$ $w$ $\pi$

(Обратите внимание, что этот случай сводится к применению леммы прокачки для регулярных языков путем жесткого кодирования самых верхних символов стека в состоянии автомата, что является достаточным, поскольку достаточно мало, чтобы гарантировать, что больше, чем число состояний этого автомата Основной трюк в том, что мы должны приспособиться к -transitions.) $l$ $l$ $|w|$ $\epsilon$

Случай 2. . Пусть будет -уровнем. С любым размером стека , , мы связываем последний push и первый pop . По определению и . Вот иллюстрация этой конструкции. Чтобы упростить рисование, я опускаю различие между позициями пути и позициями слов, которые мы должны будем сделать позже. $l \geq p'$ $i, j, k$ $p'$ $h$ $s_i \leq h \leq s_j$ $\lp(h) = \max(\{y \leq j | s_y = h\})$ $\fp(h) = \min(\{y \geq j | s_y = h\})$ $i \leq \lp(h) \leq j$ $j \leq \fp(h) \leq k$

Иллюстрация конструкции для случая 2. Для упрощения рисования различие между позициями пути и позициями слов не приводится.

Мы говорим, что полное состояние размера стека - это тройка, образованная: $h$

состояние автомата в положении $\lp(h)$
самый верхний символ стека в позиции $\lp(h)$
состояние автомата в позиции $\fp(h)$

Существует возможных полных состояний и размеров стека между и , поэтому по принципу pidgeonhole существуют два размера стека с такие что полные состояния в и одинаковы. Как и в случае 1, мы определяем с помощью , , и позиции последних букв прочитанных на соответствующих позициях в . Фактор где $p'$ $p' + 1$ $s_i$ $s_j$ $g, h$ $s_i \leq g < h \leq s_j$ $g$ $h$ $\lpp(g)$ $\lpp(h)$ $\fpp(h)$ $\fpp(g)$ $w$ $\pi$ $w = u v x y z$ $u = w_{0 \cdots \lpp(g)}$ , , , и . $v = w_{\lpp(g) \cdots \lpp(h)}$ $x = w_{\lpp(h) \cdots \fpp(h)}$ $y = w_{\fpp(h) \cdots \fpp(g)}$ $z = w_{\fpp(g) \cdots |w|}$

Эта факторизация гарантирует, что (потому что по нашему определению уровней). $|vxy| \leq p$ $k \leq p$

Мы также должны показать , что . Для этого обратите внимание, что каждый раз, когда мы повторяем , мы начинаем с одного и того же состояния и одной и той же вершины стека, и мы не попадаем ниже нашей текущей позиции в стеке (в противном случае нам пришлось бы снова нажимать на текущую позицию, нарушая максимальный размер ), поэтому мы можем следовать по одному и тому же пути в и поместить одну и ту же последовательность символов в стек. Из-за максимального значения и минимальности при чтении мы не попадаем ниже нашей текущей позиции в стеке, поэтому путь в автомате одинаков независимо от числа раз мы повторили $\forall n \geq 0, u v^n x y^n z \in L$ $v$ $\lp(g)$ $A$ $\lp(h)$ $\fp(h)$ $x$ $v$ , Теперь, если мы повторяем столько раз, сколько повторяем , так как мы начинаем с одного и того же состояния, поскольку мы поместили одну и ту же последовательность символов в стек с нашими повторениями , и поскольку мы не выскакиваем больше, чем то, что имеет суммированные с минимальностью , мы можем следовать по одному и тому же пути в и извлечь ту же последовательность символов из стека. Следовательно, принимающий путь из может быть построен из принимающего пути для . $w$ $v$ $v$ $v$ $\fp(g)$ $A$ $u v^n x y^n z$ $w$

Наконец, у нас также есть , потому что, как и в случае 1, если и , мы можем построить более короткий путь принятия для , удалив и . $|vy| > 1$ $v = \epsilon$ $y = \epsilon$ $w$ $\pi_{\lp(g)\cdots\lp(h)}$ $\pi_{\fp(h)\cdots\fp(g)}$

Следовательно, мы имеем адекватную факторизацию в обоих случаях, и результат доказан.

(Благодарю Марка Жанмугина за то, что он помог мне с этим доказательством.)

— a3nm
источник

7

Да, это возможно. Мы могли бы использовать понятие поверхностных конфигураций; они были представлены Куком давным-давно. С этим должно быть довольно легко получить версию прокачки леммы.

Что касается поверхностных конфигураций, то почти любая статья на LogCFL должна иметь свое определение. Вот недавняя статья и вот тезис

Может быть, кто-то более энергичный может изложить детали!

— V Vinay
источник

Спасибо за ответ! Да, вполне естественно взглянуть на комбинацию состояния автомата и самого верхнего символа стека. Я все еще думаю об этой проблеме, и мне не удается выяснить детали ... Помощь приветствуется. :-)

— a3nm

3

Для полноты ссылки на доказательство в этом направлении.

A.Ehrenfeucht, HJHoogeboom, G.Rozenberg: Системы координированных пар. I: Dyck слова и классическая прокачка RAIRO, инф. Теор. Appl. 20, 405-424 (1986)

Аннотация. Понятие координированной парной системы [...] очень близко соответствует (является еще одной формулировкой) понятию «автомат с нажатием». В этой статье мы [...] исследуем возможность получения накачки свойств контекстно-свободных языков посредством анализа вычислений в cp-системах. Для этого мы анализируем комбинаторную структуру слов Дика. Свойства слов Дика, которые мы исследуем, проистекают из комбинаторного анализа вычислений в cp-системах. Мы покажем, как это соответствие можно использовать для доказательства классической леммы накачки.

— Хендрик Ян
источник

1

Обсуждая эту проблему с Жеро Сенизергом, он указал мне эту статью Сакаровича, которая уже доказывает этот результат. Доказательство, похоже, восходит к этой статье Огдена.

Ссылки:

Сакарович, Жак. Непрерывное владение языками и детерминистами. (Франц. Английское резюме). Математика Теория систем 14 (1981), нет. 3, 247–288.
Уильям Ф. Огден. 1969. Интеркаляционные теоремы для стековых языков. В материалах первого ежегодного симпозиума ACM по теории вычислений (STOC '69).

— Ламин
источник