Первоначально я спросил это о переполнении стека и был передан на этот сайт, так что здесь идет:
Я внедряю некоторые неконтролируемые методы обобщения документов на основе выбора контента / извлечения, и меня смущает то, что в моем учебнике называется «логарифмическое отношение правдоподобия». Книга « Обработка речи и языка» Jurafsky & Martin кратко описывает это так:
LLR для слова, обычно называемого лямбда (w), представляет собой соотношение между вероятностью наблюдения w как во входном, так и в фоновом корпусах, предполагающей равные вероятности в обеих корпусах, и вероятностью наблюдения w в обоих, предполагая разные вероятности для W во входном и фоновом корпусе.
Разбивая это, мы имеем числитель: «вероятность наблюдения w как на входном, так и на заднем корпусах при равных вероятностях в обоих корпусах». Как рассчитать, какую вероятность использовать здесь?
и знаменатель: «вероятность наблюдения w как в предположении различных вероятностей для w во входном, так и в фоновом корпусах». - это так же просто, как вероятность появления слова во входных данных, умноженная на вероятность появления слова в корпусе? например:
(количество (слово, ввод) / общее количество слов на входе) * (количество (слово, корпус) / общее количество слов в корпусе)
Я просматривал статью с ссылками на мои книги, « Точные методы для статистики неожиданностей и совпадений» (Dunning 1993), но мне трудно связать с проблемой вычисления значений LLR для отдельных слов в обобщении на основе извлечения. Любое разъяснение здесь будет очень полезно.