Зачем ломать знаменатель в теореме Байеса?

23

(Я новичок в статистике. Я математик и программист, и я пытаюсь создать что-то вроде наивного байесовского фильтра спама.)

Во многих местах я заметил, что люди склонны разбивать знаменатель в уравнении из теоремы Байеса. Итак, вместо этого:

$\frac{P(A|B)\cdot P(B)}{P(A)}$

Нам представлено это:

$\frac{P(A|B)\cdot P(B)}{P(A|B)\cdot P(B)+P(A|\neg B)\cdot P(\neg B)}$

Вы можете видеть, что это соглашение используется в этой статье Википедии и в этом проницательном посте Тимом Питерсом.

Я сбит с толку этим. Почему знаменатель так разрушен? Как это вообще помогает? Что такого сложного в расчете , который в случае спам-фильтров был бы ? $P(A)$ The probability that the word "cheese" appears in an email, regardless of whether it's spam or not

bayesian

— Рам Рахум
источник

Я подозреваю, что ответ зависит от домена (т. Е. От спам-фильтров). Если вы можете рассчитать компоненты P (A | B) и т. Д., То вы сможете рассчитать более простое P (A), как вы заявили. Или, возможно, ответ связан с педагогикой, чтобы читатели понимали связь между P (A) и его разложением в терминах P (A | B), P (B) и т. Д.

1

У меня нет сильного ответа, но я могу сказать, что допустил глупые ошибки в тестах, в которых я мог просто вставить даны в явный знаменатель, но я подумал, что знаю P (A), и я ошибался.

— Уэйн

16

Короткий ответ на ваш вопрос: «Большую часть времени мы не знаем, что такое P (сыр), и его часто (относительно) сложно вычислить».

Более длинный ответ, почему правило / теорема Байеса обычно формулируется так, как вы написали, заключается в том, что в байесовских задачах у нас - сидя на коленях - предварительное распределение (P (B) выше) и вероятность (P (A | B), P (A | notB) выше), и это относительно простой вопрос умножения для вычисления апостериорного значения (P (B | A)). Попытка повторно выразить P (A) в его обобщенной форме - это усилие, которое можно потратить в другом месте.

Это может показаться не таким сложным в контексте электронного письма, потому что, как вы правильно заметили, это просто P (сыр), верно? Беда в том, что при более сложных байесовских задачах на поле боя знаменатель является неприглядным интегралом, который может иметь или не иметь решение в замкнутой форме. На самом деле, иногда нам нужны сложные методы Монте-Карло только для аппроксимации интеграла, и смена чисел может быть настоящей болью в тылу.

Но, что более важно, нам, как правило, даже не важно, что такое P (сыр). Имейте в виду, что мы пытаемся отточить наше убеждение относительно того, является ли электронная почта спамом , и не заботятся о предельном распределении данных (P (A), выше). В любом случае, это просто нормализация, которая не зависит от параметра; Акт суммирования стирает любую информацию, которую мы имели о параметре. Константа - это неудобство для вычисления и, в конечном счете, не имеет значения, когда нужно сосредоточиться на наших представлениях о том, является ли спам в письме. Иногда мы обязаны рассчитать его, и в этом случае самый быстрый способ сделать это с помощью информации, которая у нас уже есть: априорная и вероятностная.

Может ли кто-нибудь привести пример «неприглядного интеграла, который может иметь или не иметь решение в замкнутой форме», который будет использоваться в какой-то проблеме?

— PaulG

8

Одна из причин использования правила полной вероятности состоит в том, что мы часто имеем дело с вероятностями компонентов в этом выражении, и найти предельную вероятность просто, просто вставив значения. Для иллюстрации этого см. Следующий пример в Википедии:

Теорема Байеса> Пример 1: Тестирование на наркотики

Другой причиной является признание эквивалентных форм правила Байеса путем манипулирования этим выражением. Например:

$P(B|A) = \frac{P(A|B) P(B)}{P(A|B)P(B) + P(A|\lnot B)P(\lnot B)}$

Разделите через RHS на числитель:

$P(B|A) = \frac{1} {1 + \frac{P(A|\lnot B)}{P(A|B)} \frac{P(\lnot B)}{P(B)}}$

Это хорошая эквивалентная форма для правила Байеса, которая стала еще удобнее, вычтя ее из исходного выражения, чтобы получить:

$\frac{P(\lnot B|A)}{P(B|A)} = \frac{P(A|\lnot B)} {P(A|B)} \frac {P(\lnot B)} {P(B)}$

Это правило Байеса, сформулированное в терминах коэффициентов, то есть последующие коэффициенты против B = коэффициент Байеса против B, умноженные на предыдущие коэффициенты против B. (Или вы можете инвертировать его, чтобы получить выражение в терминах коэффициентов для B.) Соотношение вероятностей ваших моделей. Учитывая, что мы не уверены в базовом механизме генерации данных, мы наблюдаем за данными и обновляем наши убеждения.

Я не уверен, что вы найдете это полезным, но, надеюсь, это не сбивает с толку; очевидно, вы должны работать с выражением, которое лучше всего подходит для вашего сценария. Может быть, кто-то еще может подслушивать с еще лучшими причинами.

— АРС
источник

Вы можете пойти еще дальше и взять логи. Тогда у вас есть лог-апостериорное отношение = логарифмическое отношение предшественников + логарифмическое отношение правдоподобия

— вероятностная логика

6

Предыдущие ответы достаточно подробны, но интуитивно понятный способ понять, почему $P (A)$

п (A) знак равно п (A | В) \cdot п (В) + п (A | \neg В) \cdot п (\neg В)

$P(A) = P(A|B)\cdot P(B)+P(A|\neg B)\cdot P(\neg B)$

— suncoolsu
источник