Почему Байесовский классификатор идеальный классификатор?

11

Считается идеальным случаем, когда структура вероятности, лежащая в основе категорий, известна полностью.

Почему с помощью байесовского классификатора мы достигаем наилучшей производительности, которая может быть достигнута?

Что является формальным доказательством / объяснением этого? Как мы всегда используем байесовский классификатор в качестве эталона для сравнения производительности всех других классификаторов.

— Vatsal
источник

9

Почему с помощью байесовского классификатора мы достигаем наилучшей производительности, которая может быть достигнута? Что является формальным доказательством / объяснением этого?

Обычно считается , что набор данных состоит из iid выборок распределения, которое генерирует ваши данные. Затем вы строите прогностическую модель на основе данных: для образца вы прогнозируете класс , тогда как реальный класс образца - . $D$ $n$ $x_i$ $x_i$ $\hat{f}(x_i)$ $f(x_i)$

Однако теоретически вы можете решить не выбирать одну конкретную модель , а рассмотреть сразу все возможные модели как-то объединить их в одну большую модель , $\hat{f}_\text{chosen}$ $\hat{f}$ $\hat F$

Конечно, учитывая данные, многие из меньших моделей могут быть совершенно невероятными или неуместными (например, модели, которые предсказывают только одно значение цели, даже если в вашем наборе данных есть несколько значений цели ). $D$

В любом случае вы хотите предсказать целевое значение новых выборок, которые извлекаются из того же распределения, что и s. Хорошим показателем о производительности вашей модели будет то есть вероятность , что вы предсказать истинное целевое значение для случайной выборки . $x_i$ $e$

e (model) = P [f (X) = model (X)],

$e(\text{model}) = P[f(X) = \text{model}(X)]\text{,}$

X

$X$

Используя формулу Байеса, вы можете вычислить, какова вероятность того, что новый образец иметь целевое значение , учитывая данные : $x$ $v$ $D$

P (v ∣ D) = \sum_{\hat{f}} P (v ∣ \hat{f}) P (\hat{f} ∣ D) .

$P(v\mid D) = \sum_{\hat{f}} P(v\mid \hat{f}) P(\hat{f}\mid D)\text{.}$ Следует подчеркнуть, что

обычно равен или , поскольку является детерминированной функцией , $P(v\mid \hat{f})$ $0$ $1$ $\hat{f}$ $x$
не обычно, но почти всегда невозможно оценить (за исключением вышеупомянутых тривиальных случаев), $P(\hat{f}\mid D)$
обычно, но почти всегда число возможных моделей слишком велико, чтобы можно было оценить верхнюю сумму. $\hat{f}$

Следовательно, очень трудно получить / оценить в большинстве случаев. $P(v\mid D)$

Теперь мы переходим к оптимальному байесовскому классификатору. Для данного он предсказывает значение Поскольку это наиболее вероятное значение среди всех возможных целевых значений , оптимальный байесовский классификатор максимизирует показатель эффективности . $x$

\hat{v} = {argmax}_{v} \sum_{\hat{f}} P (v ∣ \hat{f}) P (\hat{f} ∣ D) .

$\hat{v} = \text{argmax}_v \sum_{\hat{f}} P(v\mid \hat{f}) P(\hat{f}\mid D)\text{.}$

v

$v$

e (\hat{f})

$e(\hat{f})$

Как мы всегда используем байесовский классификатор в качестве эталона для сравнения производительности всех других классификаторов.

Возможно, вы используете наивную версию байесовского классификатора. Его легко реализовать, он работает достаточно хорошо большую часть времени, но вычисляет только наивную оценку . $P(v\mid D)$

— Antoine
источник

Является ли байесовский классификатор (не наивный Байес) таким же, как байесовский оптимальный классификатор ???? и априорная вероятность?

P (v | f)

$P(v|f)$

— RuiQi

@RuiQi Я не думаю , что есть такая вещь , как в классификатор Байеса. Мне известны наивный байесовский классификатор и оптимальный байесовский классификатор.

— Антуан

@RuiQi - это вероятность того, что выборка для классификации попадет в класс если мы будем использовать прогнозную модель . Я думаю, вы можете назвать это до вероятности.

P (v ∣ \hat{f})

$P(v\mid \hat{f})$

v

$v$

\hat{f}

$\hat{f}$

— Антуан

0

Производительность с точки зрения степени успеха классификатора относится к вероятности того, что истинный класс равен прогнозируемому классу . $C_T$ $C_P$

Вы можете выразить эту вероятность в виде интеграла по всем возможным ситуациям вектора признаков (или суммы, когда дискретен) и условной вероятности для классификации правильной для этих $X$ $X$ $x$

P (C_{T} = C_{P}) = \int_{all possible X} f (x) P (C_{T} = C_{P} | x) d x

$P(C_T=C_P) = \int_{\text{all possible $X$}} f(x)P(C_T=C_P|x) \text{d}x$

Там , где есть плотность вероятности для функции вектора . $f(x)$ $X$

Если для некоторого возможного набора признаков классификатор не выбирает наиболее вероятный класс для этого набора признаков, он может быть улучшен. $x$

Классификатор Байеса всегда выбирает наиболее вероятный класс для каждого набора признаков (термин является максимальным), поэтому не может быть улучшен, по крайней мере, не на основе признаков . $x$ $P(C_T=C_P|x)$ $x$

— Секст Эмпирик
источник