Ссылки, которые оправдывают использование гауссовых смесей


14

Модели гауссовых смесей (GMM) привлекательны, потому что с ними просто работать как в аналитическом, так и на практическом плане, и они способны моделировать некоторые экзотические распределения без особых сложностей. Есть несколько аналитических свойств, которые мы должны ожидать, которые в целом не ясны. Особенно:

  • Скажем, Sn - класс всех гауссовых смесей с компонентами. Гарантируем ли мы для любого непрерывного распределения на вещественных значениях, что с ростом мы можем приблизить с GMM с незначительными потерями в смысле относительной энтропии? То естьnPnP
    limninfP^SnD(P||P^)=0?
  • Скажем, у нас есть непрерывное распределение P и мы нашли N -компонентную гауссову смесь P^ которая близка к P в полной вариации: δ(P,P^)<ε . Можем ли мы связать D(P||P^) в терминах ϵ ?
  • Если мы хотим наблюдать через независимый аддитивный шум (как действительный, непрерывный), и у нас есть GMMs где , тогда это значение мало: т. Е. Правда ли, что оценить шум через примерно так же сложно, как оценить шум через ?XPXYPYX^QX,Y^QNδ(P,Q)<ϵ
    |mmse(X|X+Y)mmse(X^|X^+Y^)|,
    XYX^Y^
  • Можете ли вы сделать это для моделей с неаддитивным шумом, таких как шум Пуассона?

Мой (короткий) обзор литературы только что нашел очень прикладные уроки. Есть ли у кого-нибудь ссылки, которые строго демонстрируют, при каких условиях мы оправдываемся при использовании смешанных моделей?


3
Множество ГММ плотно на множестве распределений в слабой топологии (что соответствует сходимости в распределении); см. например здесь . Я не уверен , имеет ли ваше первое заявление, хотя это, безусловно , потребует позволяя компоненты нулевой дисперсии в смеси , чтобы иметь дело с любыми точечными массами в . Я также скептически отношусь ко второму пункту, опять же из-за вопроса о точечных массах. P
Дугал

1
Хороший вопрос, я указал, что все должно быть непрерывным
enthdegree

1
Возможно, вам повезет больше, глядя на литературу по оценке плотности ядра с гауссовыми ядрами. Поскольку у вас есть смесь гауссиан с одним на выборку, с увеличением количества выборок вы получаете асимптотически несмещенную и последовательную оценку распределения? Я думаю, что ответ - да, но не мог сразу найти ссылку.
Грег Вер Стиг

2
@enthdegree: очень хороший вопрос. Поскольку вы хотите использовать сильные топологии (дивергенцию KL и полную вариацию), общий ответ на ваши первые два пункта - нет: например, рассмотрите распределение с "жирным хвостом"; KL для любой конечной гауссовой смеси бесконечен (я уверен, что это работает, но не на 100%). Но это приводит к гораздо более интересному вопросу, к какому подклассу распределений вероятностей применимы все ваши маркеры? Я не знаю ответа, но он кажется чрезвычайно интересным. Я думаю, что это, вероятно, почти все распределения вероятностей.
Гийом Дехен,

1
Я взял класс с этой книгой. ссылка Это делает некоторый приличный фон по основам.
EngrStudent - Восстановить Монику

Ответы:


0

В эконометрике, где контекст представляет собой смешанные распределения коэффициентов в логит-моделях, стандартным справочником является: СМЕШАННЫЕ МНЛ-МОДЕЛИ ДЛЯ ДИСКРЕТНОГО ОТВЕТА ДЭНЬЯ МАКФАДДЕНА И КЕННЕТА, ЖУРНАЛ ПРИКЛАДНОЙ ЭКОНОМЕТРИКИ, J. Appl. Econ. 15: 447-470 (2000).


0

Что касается ваших вопросов:

  1. Для очень похожей байесовской проблемы гауссовского процесса Дирихле, я понимаю, что ответ - да. Ghosal (2013) .
  2. Когда я присутствовал на некоторых выступлениях на эту тему, казалось, что прогресс был достигнут главным образом с помощью дивергенции KL. Посмотрите слайды Гарри ван Зантена .
  3. Мне не понятно Однако это выглядит как проблема разделения источника ( ). Как правило, они намного сложнее, чем моделирование смеси. В частности, для простого случая вы не сможете идентифицировать истинные и из-за симметрии распределений около нуля.PN,PSPN=PS=N(0,1)XY
  4. См. Четвертый из слайдов, связанных выше, есть список байесовских моделей, для которых имеют место гарантии конвергенции.

0

Вот частичный ответ.

Скажем, - класс всех гауссовых смесей с n компонентами. Гарантируем ли мы для любого непрерывного распределения P на вещественных значениях, что с ростом n мы можем приблизить P с GMM с незначительными потерями в смысле относительной энтропии? То есть, делает Ит п инф PS п D ( P | | P ) = 0 ?SnnPnP

limninfP^SnD(P||P^)=0?

Нет , вы только надеяться , что KL дивергенции мала , если вы знаете , что Q «хвосты s в конце концов одного и того же порядка, что и P » s. Это не правда в целом. Не трудно видеть , что для P Коши , то для любого п , инф PS п D ( P | | P ) = D(PQ)QPPn

infP^SnD(P||P^)=

Чтобы сказать это, нужно больше условий на P

Скажем , мы имеем непрерывное распределение и мы нашли Н -компонент гауссовой смеси P , которая близка к Р в общей вариации: б ( P , P ) < ε . Можем ли мы связаны D ( P | | P ) в терминах е ?PNP^Pδ(P,P^)<εD(P||P^)ϵ

Нет. Тот же пример приведен выше.

XPXYPYX^QX,Y^QYδ(P,Q)<ϵ

|mmse(X|X+Y)mmse(X^|X^+Y^)|,
XYX^Y^

X,Y,X^,Y^E[X|Y]E[X^|Y^]|EP[(EP[X|Y]X)2]EQ[(EQ[X|Y]X)2]|TV(P,Q)

Я не смог доказать это ни в целом, ни с использованием дополнительной аддитивной структуры, которую мы предположили для P, Q, или придумали какие-либо контрпримеры.

Можете ли вы сделать это для моделей с неаддитивным шумом, таких как шум Пуассона?

Это неоднозначно. В контексте предыдущего вопроса, если утверждение в этом ответе может быть доказано в целом, тогда ответ - да.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.