Алгоритм табличного Q-обучения гарантированно найдет оптимальную функцию, , при условии, что выполнены следующие условия (условия Роббинса-Монро ) относительно скорости обучения
где означает скорость обучения, используемую при обновлении значения связанного с состоянием и действием на временном шаге , где предполагается истинным, для все состояния и действия .
По-видимому, учитывая, что , чтобы оба условия выполнялись, все пары состояния-действия должны посещаться бесконечно часто: об этом также говорится в книге « Обучение подкреплению: введение» , помимо того , что это должно быть широко известно и является обоснование использования в -greedy политики (или аналогичной политики) во время тренировки.
Полное доказательство того, что обучение находит оптимальную функцию можно найти в статье « Сходимость Q-обучения: простое доказательство» (Франсиско С. Мело). Он использует такие понятия, как сопоставление сокращений , чтобы определить оптимальную функцию (см. Также Что такое оператор Беллмана в обучении подкреплению? ), Которая является фиксированной точкой этого оператора сжатия. Он также использует теорему (п. 2) о случайном процессе, который сходится к , учитывая несколько предположений. (Доказательство может быть нелегким, если вы не математик.)
Если нейронная сеть используется для представления функции, не имеет место сходимость гарантий - Learning еще держать? Почему (или нет) Q-обучение сходятся при использовании приближения функции? Существует ли формальное доказательство такой не сходимости обучения с помощью приближения функций?
Я ищу разные типы ответов, от тех, которые дают интуицию за не сходимостью обучения при использовании приближения функций к тем, которые предоставляют формальное доказательство (или ссылку на статью с формальным доказательством).