Я читал сегодня наивную байесовскую классификацию. Я прочитал под заголовком Оценка параметров с добавлением сглаживания 1 :
Пусть ссылается на класс (например, Positive или Negative), а указывает на токен или слово.
Оценка максимального правдоподобия для :
Эта оценка может быть проблематичной, поскольку она даст нам вероятность для документов с неизвестными словами. Распространенным способом решения этой проблемы является использование сглаживания Лапласа.
Пусть V будет набором слов в обучающем наборе, добавьте новый элемент (для неизвестного) в набор слов.
Определить
где относится к словарному запасу (слова в обучающем наборе).
В частности, любое неизвестное слово будет иметь вероятность
У меня такой вопрос: почему мы вообще беспокоимся об этом сглаживании Лапласа? Если эти неизвестные слова, с которыми мы сталкиваемся в тестовом наборе, имеют вероятность, которая почти равна нулю, то есть , какой смысл включать их в модель? Почему бы просто не игнорировать и не удалять их?