Мой учебник перечисляет idf как где
- : количество документов
- : количество документов, содержащих термин t
Википедия перечисляет эту формулу в виде сглаженной версии фактического . Это один Я понимаю: она колеблется отлог(Ндо∞,что кажется интуитивным.
Нолог(1+N
переходит отlog(1+1)к∞,что кажется странным ...
Я немного знаю о сглаживании из языкового моделирования, но там вы бы добавили что-то в числитель, а также в знаменатель, потому что вы беспокоитесь о вероятности массы. Но просто добавить1не имеет смысла для меня. Что мы пытаемся достичь здесь?
связанные, но не дубликаты: stats.stackexchange.com/questions/152182/…
—
Sycorax сообщает, что восстановит Монику