Наивные байесовские классификаторы являются популярным выбором для задач классификации. Есть много причин для этого, в том числе:
- «Zeitgeist» - широко распространенная осведомленность после успеха спам-фильтров около десяти лет назад
- Легко написать
- Модель классификатора быстро построить
- Модель может быть изменена с новыми данными обучения без необходимости перестраивать модель
Тем не менее, они «наивны» - то есть они предполагают, что функции независимы - это контрастирует с другими классификаторами, такими как классификаторы максимальной энтропии (которые медленно вычисляются).
Предположение о независимости обычно не может быть принято, и во многих (в большинстве случаев) случаях, включая пример спам-фильтра, оно просто неверно.
Так почему же наивный байесовский классификатор по-прежнему очень хорошо работает в таких приложениях, даже если функции не зависят друг от друга?