При обучении параметризованной модели (например, для максимизации вероятности) посредством стохастического градиентного спуска на некотором наборе данных обычно предполагается, что обучающие выборки извлекаются из распределения обучающих данных. Таким образом, если цель состоит в том, чтобы смоделировать совместное распределение , то каждый обучающий образец должен быть взят из этого распределения.
Если вместо этого цель состоит в том, чтобы смоделировать условное распределение , то как изменится требование iid, если оно вообще будет?
- Должны ли мы по-прежнему извлекать каждый образец из совместного распределения?
- Должны ли мы извлечь iid из , а затем извлечь iid из ?
- Можем ли мы нарисовать не из (например, коррелированные по времени), а затем извлечь из ?
Можете ли вы прокомментировать обоснованность этих трех подходов для стохастического градиентного спуска? (Или помогите перефразировать вопрос, если это необходимо.)
Я хотел бы сделать № 3, если это возможно. Мое приложение находится в обучении с подкреплением, где я использую параметризованную условную модель в качестве политики управления. Последовательность состояний сильно коррелирована, но действия выбираются из стохастической политики, обусловленной состоянием. Полученные выборки (или их подмножество) используются для обучения политики. (Другими словами, представьте себе, что вы долго управляете политикой управления в некоторой среде, собирая набор данных выборок состояний / действий. Затем, даже если состояния коррелируют с течением времени, действия генерируются независимо, в зависимости от состояния.) Это несколько похоже на ситуацию в этой статье .
Я нашел статью, Рябко, 2006, « Распознавание образов для условно независимых данных », которая на первый взгляд казалась актуальной; однако, там ситуация обратная от того, что мне нужно, где (метка / категория / действие) может быть нарисовано не из , а (объект / шаблон / состояние) извлечено из . P ( Y ) x i P ( X | Y )
Обновление: две статьи ( здесь и здесь ), упомянутые в статье Рябко, кажутся здесь актуальными. Они предполагают, что происходят из произвольного процесса (например, не iid, возможно, нестационарного). Они показывают, что оценки ближайшего соседа и ядра согласуются в этом случае. Но меня больше интересует, является ли оценка, основанная на стохастическом градиентном спуске, действительной в этой ситуации.