Я запутался в том, как рассчитать растерянность несдерживаемой пробы при выполнении скрытого распределения дирихле (LDA). Бумаги на эту тему очень легки, заставляя меня думать, что я упускаю что-то очевидное ...
Недоумение считается хорошим показателем производительности для LDA. Идея состоит в том, что вы сохраняете выборку несогласных, обучаете свой LDA остальным данным, а затем рассчитываете сложности удерживающих.
Недоумение можно определить по формуле:
(Взято из поиска изображений в крупномасштабных базах данных изображений, Horster et al .)
Здесь - количество документов (предположительно в тестовом образце), - слова в документе , - количество слов в документе .
Мне не ясно, как разумно рассчитать , так как у нас нет тематических смесей для выдаваемых документов. В идеале, мы должны интегрироваться поверх Dirichlet для всех возможных тематических смесей и использовать изученные нами многочлены. Однако вычисление этого интеграла не кажется легкой задачей.
В качестве альтернативы, мы могли бы попытаться выучить оптимальное сочетание тем для каждого выдвинутого документа (учитывая наши изученные темы) и использовать его для расчета недоумения. Это было бы выполнимо, однако это не так тривиально, как, по-видимому, предлагают такие документы, как Хортер и др., И Блей и др., И мне не сразу ясно, что результат будет эквивалентен идеальному случаю, описанному выше.