Можно ли обучить модель P (Y | X) с помощью стохастического градиентного спуска из неидеальных выборок P (X) и iid выборок P (Y | X)?


10

При обучении параметризованной модели (например, для максимизации вероятности) посредством стохастического градиентного спуска на некотором наборе данных обычно предполагается, что обучающие выборки извлекаются из распределения обучающих данных. Таким образом, если цель состоит в том, чтобы смоделировать совместное распределение , то каждый обучающий образец должен быть взят из этого распределения.P(X,Y)(xi,yi)

Если вместо этого цель состоит в том, чтобы смоделировать условное распределение , то как изменится требование iid, если оно вообще будет?P(Y|X)

  1. Должны ли мы по-прежнему извлекать каждый образец из совместного распределения?(xi,yi)
  2. Должны ли мы извлечь iid из , а затем извлечь iid из ?xiP(X)yiP(Y|X)
  3. Можем ли мы нарисовать не из (например, коррелированные по времени), а затем извлечь из ?xiP(X)yiP(Y|X)

Можете ли вы прокомментировать обоснованность этих трех подходов для стохастического градиентного спуска? (Или помогите перефразировать вопрос, если это необходимо.)

Я хотел бы сделать № 3, если это возможно. Мое приложение находится в обучении с подкреплением, где я использую параметризованную условную модель в качестве политики управления. Последовательность состояний сильно коррелирована, но действия выбираются из стохастической политики, обусловленной состоянием. Полученные выборки (или их подмножество) используются для обучения политики. (Другими словами, представьте себе, что вы долго управляете политикой управления в некоторой среде, собирая набор данных выборок состояний / действий. Затем, даже если состояния коррелируют с течением времени, действия генерируются независимо, в зависимости от состояния.) Это несколько похоже на ситуацию в этой статье .xiyi(xi,yi)

Я нашел статью, Рябко, 2006, « Распознавание образов для условно независимых данных », которая на первый взгляд казалась актуальной; однако, там ситуация обратная от того, что мне нужно, где (метка / категория / действие) может быть нарисовано не из , а (объект / шаблон / состояние) извлечено из . P ( Y ) x i P ( X | Y )yiP(Y)xiP(X|Y)

Обновление: две статьи ( здесь и здесь ), упомянутые в статье Рябко, кажутся здесь актуальными. Они предполагают, что происходят из произвольного процесса (например, не iid, возможно, нестационарного). Они показывают, что оценки ближайшего соседа и ядра согласуются в этом случае. Но меня больше интересует, является ли оценка, основанная на стохастическом градиентном спуске, действительной в этой ситуации.xi


1
Может быть , я что - то не хватает, и я не читал газету, но: вы рисуете не-IID из P ( X ) , а затем выборки у я IID из P ( Y | X ) . Рябко (2006) рисует y i -ный iid из P ( Y ) и затем выбирает x i iid из P ( X Y ) . Это похоже на переименование. Есть ли что-то принципиально другое в объектах х и уxiP(X)yiP(YX)yiP(Y)xiP(XY)xyчто делает это не той же ситуацией?
Дугал

@Dougal: Разница в том, что модели условного распределения, как и условные случайные поля, по-разному трактуют и Y («входы» и «выходы») ... они моделируют только одно направление ( P ( Y | X ), но не P ( X | Y ) ). XYP(Y|X)P(X|Y)
Тайлер Стритер

2
Я бы рассмотрел следующую аналогию в этом случае. Предположим, что и X i - это два коррелированных временных ряда (корреляция во времени). Мы хотели бы выяснить функцию Y i = f ( X i ; θ ) , которая эквивалентна нахождению P ( Y i | X i ; θ ) . Если P ( Y i | X i ; θ )YяИксяYязнак равное(Икся;θ)п(Yя|Икся;θ)п(Yя|Икся;θ), который является остатком, является IID (следовательно, стационарным и некоррелированным), тогда процедура оценки сходится без смещения. В основном, обработка временных рядов во временном порядке или в любом рандомизированном порядке не должна иметь значения в процедуре MLE, если условная вероятность правильно указана, а остатки - это IID.
Кагдас Озгенц

Ответы:


1

Я думаю, что вы можете сделать либо 2, либо 3. Однако проблема с 3 заключается в том, что в разрешении произвольных распределений для X вы включаете распределения, в которых вся или почти вся сконцентрированная вероятность будет небольшим интервалом в x-пространстве. Это повредит общей оценке P (Y | X), потому что у вас будет мало или нет данных для определенных значений X.


Так вы говорите, что с подходом № 3 я бы получил непредвзятый результат с потенциально высокой дисперсией?
Тайлер Стритер

11

Да, это имеет смысл, что дисперсия может быть большой. Я предполагаю, что моя главная проблема состоит в том, будет ли оценочный P (Y | X) смещен.
Тайлер Стритер

Мы не обсуждали точечную оценку. Если у вас есть несмещенные оценки для P (X), P (Y) и P (X | Y) и вставьте их в формулу P (Y | X) = P (X | Y) P (Y) / P (X) Вы получите предвзятую оценку.
Майкл Р. Черник

Я должен подчеркнуть, что я говорю об оценке P (Y | X) с помощью стохастического градиентного спуска, и в этом случае порядок обучающих выборок может влиять на то, насколько быстро или сходится ли он к правильной модели. Я не просто использую средние значения выборки, где порядок выборок не имеет значения.
Тайлер Стритер
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.