Эта проблема была исследована в статье
«Увеличение данных в многопоточных таблицах непредвиденных обстоятельств с фиксированными предельными значениями» (Dobra et al., 2006). Обозначим через параметры модели, через n обозначим таблицу ненаблюдаемых целых чисел для каждой пары ( x , y ) , и пусть C ( S , T ) будет множество целочисленных таблиц, предельные значения которых равны ( S , T ) , Тогда вероятность соблюдения предельных отсчетов ( S , T ) равна:
p (θN( х , у)С( S, Т)( S, Т)( S, Т)
где p ( n | θ ) - многочленное распределение выборки. Это определяет функцию правдоподобия для ML, но прямая оценка невозможна, за исключением небольших проблем. Подход, который они рекомендуют, это MCMC, где вы поочередно обновляете n и θ.
p ( S, Т| θ)= ∑n ∈C( S, Т)p ( n | θ )
p ( n | θ )Nθпутем выборки из распределения предложений и принятия изменений в соответствии с коэффициентом приемки Metropolis-Hastings. Это может быть адаптировано для нахождения приблизительного максимума по
с использованием метода Монте-Карло EM.
θ
Другой подход будет использовать вариационные методы для аппроксимации суммы по . Предельные ограничения могут быть закодированы в виде факторного графа, а логический вывод по θ может быть выполнен с использованием распространения ожиданий.Nθ
Чтобы понять, почему эта проблема сложна и не допускает тривиального решения, рассмотрим случай . Принимая S в качестве сумм строк и T в качестве сумм столбцов, существует две возможные таблицы подсчетов:
[ 0 1 2 0 ]S= ( 1 , 2 ) , Т= ( 2 , 1 )ST
Поэтому функция правдоподобия
р(S,Т | & thetas)=3 р 12 р 2 21 +6 р 11 р 21 р 22
Среда MLE этой проблемы является
р х , у = [ 0 1 / 3 2 / 3 0 ]
[ 0210][ 1101]
p ( S, Т| θ)=3 р12п221+ 6 р11п21п22
п^х , у= [ 02 / 31 / 30]
что соответствует предположению о таблице слева. Напротив, оценка , что вы получите, если предположить независимость
,
которые имеет меньшее значение вероятности.
Qх , у= [ 1 / 32 / 3] [ 2 / 31 / 3] = [ 2 / 94 / 91 / 92 / 9]
maximum-entropy
тег? Вы после решения максимальной энтропии?