Зачем добавлять один в частоте обратного документа?


9

Мой учебник перечисляет idf как гдеlog(1+Nnt)

  • : количество документовN
  • : количество документов, содержащих термин tntt

Википедия перечисляет эту формулу в виде сглаженной версии фактического . Это один Я понимаю: она колеблется отлог(Нlog(Nnt)до∞,что кажется интуитивным. Нолог(1+Nlog(NN)=0
переходит отlog(1+1)к∞,что кажется странным ... Я немного знаю о сглаживании из языкового моделирования, но там вы бы добавили что-то в числитель, а также в знаменатель, потому что вы беспокоитесь о вероятности массы. Но просто добавить1не имеет смысла для меня. Что мы пытаемся достичь здесь?log(1+Nnt)log(1+1)
1



Правильное сглаживание будет
log(N(1+nt))

Ответы:


Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.