Я читал:
https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition
Но я не могу понять, почему именно формула была построена такой, какая она есть.
Что я делаю Понять:
iDF должен на каком-то уровне измерять, как часто термин S появляется в каждом из документов, уменьшаясь в значении по мере того, как термин появляется чаще.
С этой точки зрения
Кроме того, термин частота может быть справедливо описан как
Итак, мера
в некоторой степени пропорционален тому, как часто термин встречается в данном документе, и насколько уникальным этот термин является над набором документов.
Что я не понимаю
Но данная формула описывает это как
Я хочу понять необходимость логарифмов, описанных в определении. Мол, почему они там? Какой аспект они подчеркивают?