Оценка максимального правдоподобия совместного распределения с учетом только предельных показателей

Пусть - совместное распределение двух категориальных переменных с . Скажем, из этого распределения было взято выборок, но нам даны только предельные значения, а именно для : $p_{x,y}$ $X,Y$ $x,y\in\{1,\ldots,K\}$ $n$ $j=1,\ldots,K$

S_{j} = \sum_{i = 1}^{n} δ (X_{i} = l), T_{j} = \sum_{i = 1}^{n} δ (Y_{i} = j),

$S_j = \sum_{i=1}^{n}{\delta(X_i=l)}, T_j = \sum_{i=1}^{n}{\delta(Y_i=j)},$

Какова максимальная оценка правдоподобия для , учитывая ? Это известно? Вычислительно выполнимо? Есть ли другие разумные подходы к этой проблеме, кроме ML? $p_{x,y}$ $S_j,T_j$

— RS
источник

Поля на самом деле не содержат информации * о совместном распределении (на самом деле это точка связок).

$\:$ * или, по крайней мере, вряд ли - очевидно, поля содержат хотя бы некоторую информацию, поскольку внутренние показатели не могут превышать поля, в котором они встречаются. Имеете ли вы в виду конкретное совместное распределение? Почему вы использовали maximum-entropyтег? Вы после решения максимальной энтропии?

— Glen_b

Я не очень знаком с связками. Они справедливы и для категориального случая? Что бы это значило - что каждое совместное распределение с одинаковыми наценками будет иметь одинаковую вероятность? (Я отметил максимальную энтропию, потому что думал, что это может быть актуально.)

— RS

У нас даже нет определенной распределенной модели, поэтому мы не можем вычислить

. Здесь есть множество возможностей. Копулы существуют для упорядоченного категориального случая (если не уникального), но моя цель в его поднятии состояла в том, чтобы дать мотивацию тому, почему маргиналы были не очень информативны в целом. Что касается случая с категориальным подсчетом, Фишер рассматривал поля как неинформативные для сустава, откуда точный тест Фишера-Ирвина. Если вам нужна максимальная энтропия, вы, вероятно, можете получить максимальное энтропийное решение, но я не знаю, будет ли оно очень информативным в отношении ...

P (x | θ)

$P(x|\theta)$

— Glen_b -Восстановить Монику

(ctd) ... структура. В случаях ME или ML, я думаю, вам сначала понадобится какая-то модель, будь то двумерная многочленовая, двумерная гипергеометрическая или что-то более структурированное. Смотрите этот вопрос , где автор помещает ссылку в ответ. Это может помочь

— Glen_b

Я имел в виду общее двумерное полиномиальное распределение. Вопрос говорит о случае, когда суммы распределения даны, и мы видим образцы из совместного распределения. Здесь у нас есть суммы образца. Я думаю, что проблема хорошо определена в случае ОД (решение может быть не уникальным, но я не знаю).

— RS

Ответы:

Эта проблема была исследована в статье «Увеличение данных в многопоточных таблицах непредвиденных обстоятельств с фиксированными предельными значениями» (Dobra et al., 2006). Обозначим через параметры модели, через обозначим таблицу ненаблюдаемых целых чисел для каждой пары , и пусть будет множество целочисленных таблиц, предельные значения которых равны , Тогда вероятность соблюдения предельных отсчетов равна: $\theta$ $\mathbf{n}$ $(x,y)$ $C(S,T)$ $(S,T)$ $(S,T)$ где - многочленное распределение выборки. Это определяет функцию правдоподобия для ML, но прямая оценка невозможна, за исключением небольших проблем. Подход, который они рекомендуют, это MCMC, где вы поочередно обновляете и

p (S, T | θ) = \sum_{n \in C (S, T)} p (n | θ)

$p(S,T | \theta) = \sum_{\mathbf{n} \in C(S,T)} p(\mathbf{n} | \theta)$

p (n | θ)

$p(\mathbf{n} | \theta)$

n

$\mathbf{n}$

θ

$\theta$ путем выборки из распределения предложений и принятия изменений в соответствии с коэффициентом приемки Metropolis-Hastings. Это может быть адаптировано для нахождения приблизительного максимума по

с использованием метода Монте-Карло EM.

θ

$\theta$

Другой подход будет использовать вариационные методы для аппроксимации суммы по . Предельные ограничения могут быть закодированы в виде факторного графа, а логический вывод по может быть выполнен с использованием распространения ожиданий. $\mathbf{n}$ $\theta$

Чтобы понять, почему эта проблема сложна и не допускает тривиального решения, рассмотрим случай . Принимая в качестве сумм строк и в качестве сумм столбцов, существует две возможные таблицы подсчетов: $S=(1,2), T=(2,1)$ $S$ $T$ Поэтому функция правдоподобия Среда MLE этой проблемы является

[\begin{matrix} 0 & 1 \\ 2 & 0 \end{matrix}] [\begin{matrix} 1 & 0 \\ 1 & 1 \end{matrix}]

$\begin{bmatrix} 0 & 1 \\ 2 & 0 \end{bmatrix} \qquad \begin{bmatrix} 1 & 0 \\ 1 & 1 \end{bmatrix}$

п (S, T | θ) знак равно 3 п_{12} п_{21}^{2} + 6 п_{11} п_{21} п_{22}

$p(S,T|\theta) = 3 p_{12} p_{21}^2 + 6 p_{11} p_{21} p_{22}$

{\hat{п}}_{Икс, Y} знак равно [\begin{matrix} 0 & 1 / 3 \\ 2 / 3 & 0 \end{matrix}]

$\hat{p}_{x,y} = \begin{bmatrix} 0 & 1/3 \\ 2/3 & 0 \end{bmatrix}$ что соответствует предположению о таблице слева. Напротив, оценка , что вы получите, если предположить независимость

, которые имеет меньшее значение вероятности.

Q_{Икс, Y} знак равно [\begin{matrix} 1 / 3 \\ 2 / 3 \end{matrix}] [\begin{matrix} 2 / 3 & 1 / 3 \end{matrix}] знак равно [\begin{matrix} 2 / 9 & 1 / 9 \\ 4 / 9 & 2 / 9 \end{matrix}]

$q_{x,y} = \begin{bmatrix} 1/3 \\ 2/3 \end{bmatrix} \begin{bmatrix} 2/3 & 1/3 \end{bmatrix} = \begin{bmatrix} 2/9 & 1/9 \\ 4/9 & 2/9 \end{bmatrix}$

— Том Минка
источник

Разве невозможно получить аналитическое решение?

— Бен Кун

θ

$\theta$

θ = {θ_{x, y}}

$\theta=\{\theta_{x,y}\}$

(x, y)

$(x,y)$

Я бы не стал подозревать, что существует аналитическое решение. Я добавил пример, чтобы проиллюстрировать это.

— Том Минка

Благодарю. Возможно, это верно асимптотически? Тогда, кондиционирование итоговых значений маржи аналогично условию распределений маржи (после нормализации), и логарифмическая вероятность для каждой ненаблюдаемой целочисленной таблицы пропорциональна ее энтропии. Может быть, что-то с AEP тогда?

— RS

Как было указано @Glen_b, это недостаточно указано. Я не думаю, что вы можете использовать максимальную вероятность, если вы не можете полностью определить вероятность.

Если вы готовы принять независимость, тогда проблема довольно проста (кстати, я думаю, что решение будет максимальным энтропийным решением, которое было предложено). Если вы не хотите и не можете навязать дополнительную структуру в своей задаче и все еще хотите какое-то приближение к значениям ячеек, возможно, вы могли бы использовать границы связок Фреше – Хеффдинга . Без дополнительных предположений, я не думаю, что вы можете пойти дальше.

— Ф. Туселл
источник

Вероятность в этом может быть многочленной. Почему этого недостаточно?

— RS

Насколько я понимаю, вероятность зависит от параметров, заданных данными. Здесь у вас нет значений для каждой ячейки, только маргиналы, поэтому у вас нет единственной функции параметров, которые вы можете вычислить, не говоря уже о максимизации. Как правило, существует множество конфигураций ячеек, совместимых с полями, и каждая из них дает различную вероятность.

— Ф. Туселл

p

$p$

p

$p$

$p_{x,y}$ $p_x = \sum_y p_{x,y}$ $p_y = \sum_x p_{x,y}$

Неправильные вещи следует:

$p_{x, y}$ $X, Y$ $S_1 = S_2 = T_1 = T_2 = 10$

п знак равно (\begin{array}{cc} \frac{1}{2} & 0 \\ 0 & \frac{1}{2} \end{array}), п знак равно (\begin{array}{cc} \frac{1}{4} & \frac{1}{4} \\ \frac{1}{4} & \frac{1}{4} \end{array})

$p = \left(\begin{array}{cc} \frac12 & 0 \\ 0 & \frac12\end{array}\right), \qquad p = \left(\begin{array}{cc} \frac14 & \frac14 \\ \frac14 & \frac14\end{array}\right)$

$p_x$ $p_y$

$p = \left(\begin{array}{cc}a & b \\ c & d\end{array}\right)$ $0 < a \le d$ $p = \left(\begin{array}{cc}0 & b + a \\ c + a & d - a\end{array}\right)$

$X, Y$

$H(p) = -\sum_{x,y} p_{x,y} \log p_{x,y}$ $\sum_x p_{x,y} = p_y$ $\sum_{y} p_{x,y} = p_x$ $\vec g(p) = 0$ $g_x(p) = \sum_y p_{x,y} - p_x$ $g_y(p) = \sum_x p_{x,y} - p_y$

\nabla ЧАС (п) знак равно \underset{К \in Икс \cup Y}{Σ} λ_{К} \nabla {грамм}_{К} (п)

$\nabla H(p) = \sum_{ k \in X \cup Y} \lambda_k \nabla g_k(p)$

$g_k$

1 - журнал п_{Икс, Y} знак равно λ_{Икс} + λ_{Y} ⟹ п_{Икс, Y} знак равно е^{1 - λ_{Икс} - λ_{Y}}

$1 - \log p_{x,y} = \lambda_x + \lambda_y \implies p_{x,y} = e^{1-\lambda_x-\lambda_y}$

$\sum_x p_{x,y} = p_y$ $\sum_{y} p_{x,y} = p_x$ $e^{1/2 - \lambda_x} = p_x$ $e^{1/2 - \lambda_y} = p_y$

п_{Икс, Y} знак равно п_{Икс} п_{Y},

$p_{x,y} = p_xp_y.$

— Бен Кун
источник

S_{1} = S_{2} = T_{1} = T_{2} = 10

$S_1=S_2=T_1=T_2=10$

p

$p$

[[10, 0], [0, 10]]

$[[10,0],[0,10]]$

2^{- 20}

$2^{-20}$

p

$p$

\sum_{0 \leq a \leq 10} P r [[a, 10 - a], [10 - a, a]]

$\sum_{0\le a \le 10}{Pr[[a,10-a],[10-a,a]]}$

10 \cdot 4^{- 20}

$10\cdot 4^{-20}$

Вы неправильно рассчитали вероятности; Например, вы забыли включить биномиальные коэффициенты. Но вы правы в том, что две матрицы дают разные совместные распределения предельных количеств, даже если они дают одинаковое предельное распределение предельных значений. (Yikes!) Я подумаю об этом больше.

— Бен Кун,