На самом деле это довольно просто: байесовский классификатор выбирает класс, который имеет наибольшую апостериорную вероятность появления (так называемая максимальная апостериорная оценка ). Функция потерь 0-1 наказывает ошибочную классификацию, то есть назначает наименьшую потерю решению, имеющему наибольшее количество правильных классификаций. Так что в обоих случаях речь идет об оценочном режиме . Напомним, что режим является наиболее распространенным значением в наборе данных или наиболее вероятным значением , поэтому как максимизация апостериорной вероятности, так и минимизация потерь 0-1 приводит к оценке режима.
Если вам нужно формальное доказательство, оно приведено в статье « Введение в байесовскую теорию решений » Анджелы Дж. Ю:
Функция двоичных потерь 0-1 имеет следующий вид:
lx(s^,s∗)=1−δs^s∗={10ifs^≠s∗otherwise
где - дельта-функция Кронекера. (...) ожидаемая потеря:δ
Lx(s^)=∑s∗lx(s^,s∗)P(s=s∗∣x)=∑s∗(1−δs^s∗)P(s=s∗∣x)=∑s∗P(s=s∗∣x)ds∗−∑s∗δs^s∗P(s=s∗∣x)=1−P(s=s∗∣x)
Это верно для максимальной апостериорной оценки в целом. Таким образом, если вы знаете апостериорное распределение, то при условии потери 0-1 наиболее оптимальным правилом классификации является выбор режима апостериорного распределения, мы называем это оптимальным байесовским классификатором . В реальной жизни мы обычно не знаем апостериорное распределение, а скорее оцениваем его. Наивный байесовский классификатор приближает оптимальный классификатор, рассматривая эмпирическое распределение и допуская независимость предикторов. Так что наивный байесовский классификатор сам по себе не является оптимальным, но он приближается к оптимальному решению. В вашем вопросе вы, кажется, путаете эти две вещи.