Как Наивный Байес является линейным классификатором?

Я видел другую ветку здесь, но я не думаю, что ответ удовлетворил фактический вопрос. Я постоянно читал, что Наивный Байес - это линейный классификатор (например, здесь ) (такой, что он рисует линейную границу решения), использующий демонстрацию логических шансов.

Однако я смоделировал два гауссовых облака и установил границу решения и получил результаты как таковые (библиотека e1071 в r, используя naiveBayes ()) 1- Зеленый, 0 - Красный

Как видим, граница решения нелинейная. Пытается ли сказать, что параметры (условные вероятности) представляют собой линейную комбинацию в лог-пространстве, а не сказать, что сам классификатор разделяет данные линейно?

classification naive-bayes

— Кевин Пей
источник

как вы создали границы решения? я подозреваю, что это связано с вашей подходящей процедурой, а не с истинной границей решения классификатора. обычно можно создать границу решения, рассчитав решение в каждой отдельной точке вашего квадранта.

— seanv507

Это то, что я сделал, я взял два диапазона X = [Мин (х), Макс (х)] и Y = [Мин (Y), Макс (Y)] с интервалом 0,1. Затем я подобрал все эти точки данных с помощью обученного классификатора и нашел такие точки, чтобы шансы в журнале были от -0,05 до 0,05

— Кевин Пей

Ответы:

$p(x_i \mid c)$

Вы можете написать любой наивный байесовский классификатор как *

p (c = 1 ∣ x) = σ (\sum_{i} \log \frac{p (x_{i} ∣ c = 1)}{p (x_{i} ∣ c = 0)} + \log \frac{p (c = 1)}{p (c = 0)}),

$p(c = 1 \mid \mathbf{x}) = \sigma\left( \sum_i \log \frac{p(x_i \mid c = 1)}{p(x_i \mid c = 0)} + \log \frac{p(c = 1)}{p(c = 0)} \right),$

$\sigma$ $p(x_i \mid c)$

p (x_{i} ∣ c) = h_{i} (x_{i}) \exp (u_{i c}^{⊤} ϕ_{i} (x_{i}) - A_{i} (u_{i c})),

$p(x_i \mid c) = h_i(x_i)\exp\left(\mathbf{u}_{ic}^\top \phi_i(x_i) - A_i(\mathbf{u}_{ic})\right),$

и поэтому

p (c = 1 ∣ x) = σ (\sum_{i} w_{i}^{⊤} ϕ_{i} (x_{i}) + b),

$p(c = 1 \mid \mathbf{x}) = \sigma\left( \sum_i \mathbf{w}_i^\top \phi_i(x_i) + b \right),$

где

\begin{aligned} w_{i} & = u_{i 1} - u_{i 0}, \\ b & = \log \frac{p (c = 1)}{p (c = 0)} - \sum_{i} (A_{i} (u_{i 1}) - A_{i} (u_{i 0})) . \end{aligned}

$\begin{align} \mathbf{w}_i &= \mathbf{u}_{i1} - \mathbf{u}_{i0}, \\ b &= \log \frac{p(c = 1)}{p(c = 0)} - \sum_i \left( A_i(\mathbf{u}_{i1}) - A_i(\mathbf{u}_{i0}) \right). \end{align}$

$\phi_i$

$p(x_i \mid c)$ $\phi_i(x_i) = (x_i, x_i^2)$

\begin{aligned} w_{i 1} & = σ_{1}^{- 2} μ_{1} - σ_{0}^{- 2} μ_{0}, \\ w_{i 2} & = 2 σ_{0}^{- 2} - 2 σ_{1}^{- 2}, \\ b_{i} & = \log σ_{0} - \log σ_{1}, \end{aligned}

$\begin{align} w_{i1} &= \sigma_1^{-2}\mu_1 - \sigma_0^{-2}\mu_0, \\ w_{i2} &= 2\sigma_0^{-2} - 2\sigma_1^{-2}, \\ b_i &= \log \sigma_0 - \log \sigma_1, \end{align}$

$p(c = 1) = p(c = 0) = \frac{1}{2}$

* Вот как вывести этот результат:

\begin{aligned} p (c = 1 ∣ x) & = \frac{p (x ∣ c = 1) p (c = 1)}{p (x ∣ c = 1) p (c = 1) + p (x ∣ c = 0) p (c = 0)} \\ = \frac{1}{1 + \frac{p (x ∣ c = 0) p (c = 0)}{p (x ∣ c = 1) p (c = 1)}} \\ = \frac{1}{1 + \exp (- \log \frac{p (x ∣ c = 1) p (c = 1)}{p (x ∣ c = 0) p (c = 0)})} \\ = σ (\sum_{i} \log \frac{p (x_{i} ∣ c = 1)}{p (x_{i} ∣ c = 0)} + \log \frac{p (c = 1)}{p (c = 0)}) \end{aligned}

$\begin{align} p(c = 1 \mid \mathbf{x}) &= \frac{p(\mathbf{x} \mid c = 1) p(c = 1)}{p(\mathbf{x} \mid c = 1) p(c = 1) + p(\mathbf{x} \mid c = 0) p(c = 0)} \\ &= \frac{1}{1 + \frac{p(\mathbf{x} \mid c = 0) p(c = 0)}{p(\mathbf{x} \mid c = 1) p(c = 1)}} \\ &= \frac{1}{1 + \exp\left( -\log\frac{p(\mathbf{x} \mid c = 1) p(c = 1)}{p(\mathbf{x} \mid c = 0) p(c = 0)} \right)} \\ &= \sigma\left( \sum_i \log \frac{p(x_i \mid c = 1)}{p(x_i \mid c = 0)} + \log \frac{p(c = 1)}{p(c = 0)} \right) \end{align}$

— Лукас
источник

Спасибо за вывод, который я теперь понимаю, вы можете объяснить обозначения в уравнении 2 и ниже? (u, h (x_i), phi (x_i) и т. д.) Находится ли P (x_i | c) в экспоненциальном семействе, просто принимая значение из pdf?

— Кевин Пей

u

$\mathbf{u}$

ϕ

$\phi$

ϕ (x) = (x, x^{2})

$\phi(x) = (x, x^2)$

w

$\mathbf{w}$

Я нахожу этот ответ вводящим в заблуждение: как указано в комментарии чуть ниже, а ответ чуть ниже, гауссовский наивный байесовский импульс не является линейным в исходном пространстве признаков, а представляет собой нелинейное преобразование их. Следовательно, это не обычный линейный классификатор.

— Gael Varoquaux

p (x_{i} | c)

$p(x_i|c)$

ϕ_{i} (x_{i}) = (x_{i}, x_{i}^{2})

$\phi_i(x_i)=(x_i,x_i^2)$

T (x)

$T(x)$

x / σ

$x/\sigma$

Она линейна, только если матрицы условной дисперсии класса одинаковы для обоих классов. Чтобы увидеть это, запишите соотношение постеров журнала, и вы получите только линейную функцию, если соответствующие отклонения одинаковы. В противном случае это квадратично.

— AXK
источник

Я хотел бы добавить еще одно замечание: причина некоторой путаницы заключается в том, что значит выполнять «наивную байесовскую классификацию».

В широкой теме «Гауссовский дискриминантный анализ (GDA)» есть несколько методов: QDA, LDA, GNB и DLDA (квадратичный DA, линейный DA, гауссовский наивный байес, диагональный LDA). [ОБНОВЛЕНО] LDA и DLDA должны быть линейными в пространстве заданных предикторов. (См., Например, Мерфи , 4.2, стр. 101 для DA и стр. 82 для NB. Примечание: GNB не обязательно является линейным. Дискретный NB (который использует многочленное распределение под капотом) является линейным. Вы также можете проверить Duda , Hart & Stork раздел 2.6). QDA является квадратичным, как указывали другие ответы (и я думаю, что происходит на вашем графике - см. Ниже).

$\Sigma_c$

$\Sigma_c$
$\Sigma_c = \Sigma$
$\Sigma_c = {diag}_c$ $\rightarrow$
$\Sigma_c = diag$

В то время как документы для e1071 утверждают, что они предполагают независимость от класса (то есть GNB), я подозреваю, что это фактически делает QDA. Некоторые люди путают «наивный байесовский» (делая предположения о независимости) с «простым правилом байесовской классификации». Все методы GDA получены из более поздних; но только GNB и DLDA используют первое.

Большое предупреждение, я не прочитал исходный код e1071, чтобы подтвердить, что он делает.

— MrDrFenner
источник