Что такое эффективность выборки и как можно использовать выборку важности для ее достижения?

Например, заголовок этой статьи гласит: «Пример эффективного критика актера с повторением опыта».

Что такое эффективность выборки и как можно использовать выборку важности для ее достижения?

reinforcement-learning statistical-ai importance-sampling

Ответы:

Алгоритм эффективен для выборок, если он может извлечь максимальную пользу из каждой выборки. Представьте, что вы пытаетесь научиться играть в PONG в первый раз. Как человек, вам понадобится всего несколько секунд, чтобы научиться играть в игру на основе очень небольшого количества образцов. Это делает вас очень «эффективным сэмплом». Современные алгоритмы RL должны видеть $100$ В тысячу раз больше данных, чем у вас, поэтому они, относительно, выборка неэффективна.

В случае обучения вне политики, не все образцы полезны тем, что они не являются частью интересующего нас распределения. Выборка важностиметод фильтрации этих образцов Первоначально он использовался для понимания одного дистрибутива, при этом он мог только брать образцы из другого, но связанного дистрибутива. В RL это часто встречается при попытке учиться вне политики. А именно, что ваши образцы создаются с помощью некоторой политики поведения, но вы хотите изучить целевую политику. Таким образом, необходимо измерить, насколько важны / похожи сгенерированные выборки на выборки, которые могла сделать целевая политика. Таким образом, одна выборка из взвешенного распределения, которое благоприятствует этим «важным» выборкам. Однако существует множество методов для определения того, что важно, и их эффективность может различаться в зависимости от приложения.

Наиболее распространенный подход к такой выборке важности вне политики заключается в определении соотношения вероятности того, что выборка будет сгенерирована целевой политикой. Эта статья посвящена статье « О связи между выборкой важности и градиентом политики отношения правдоподобия» (2010).

— Яден Травник
источник

Еще раз спасибо. Основной вопрос: ..finding a ratio of how likely a sample is to be generated by the target policyкак мы решаем это, учитывая, что мы знаем только политику поведения? Разве целевая политика не должна быть чем-то, что мы должны найти?

— Гокул NC

Мы можем легко оценить это, найдя соотношение целевой политики, пи, предприняв это действие, согласно политике поведения, мю. Таким образом, отношение P = pi (s, a) / mu (s, a), где a и s - действие, выбранное mu и состоянием, соответственно.

— Джейден Травник

Мой вопрос был: откуда мы получаем pi (s, a), а у нас есть только mu (s, a)? То есть откуда мы получаем целевую политику, а наша цель - ее найти?

— Гокул NC

Ваша целевая политика инициализируется случайным образом, это просто вопрос ее обновления.

— Джейден Травник

Эффективность выборки обозначает количество опыта, которое агент / алгоритм должен сгенерировать в среде (например, количество действий, которые он предпринимает, и количество полученных состояний + вознаграждений, которые он наблюдает) во время обучения, чтобы достичь определенного уровня производительности. Интуитивно, вы можете сказать, что алгоритм эффективен на примере, если он может эффективно использовать каждый опыт, который случается, чтобы генерировать и быстро улучшать свою политику. Алгоритм имеет низкую эффективность выборки, если он не может извлечь что-то полезное из многих примеров опыта и быстро не улучшается.

Объяснение важности выборки в ответе Джейдена кажется в основном правильным.

В статье, посвященной вашему вопросу, выборка важности является одним из компонентов, который обеспечивает правильную комбинацию: 1) обучения по многоступенчатым траекториям и 2) буфера воспроизведения опыта. Эти две вещи было нелегко объединить раньше (потому что многошаговые возвраты без выборки по важности верны только при обучении по политике, а старые выборки в буфере воспроизведения были сгенерированы старой политикой, что означает, что обучение из них вне политики ). Обе эти вещи по отдельности улучшают эффективность выборки, а это означает, что это также полезно для эффективности выборки, если их все же можно как-то комбинировать.

— Деннис Соемерс
источник