Зачем ломать знаменатель в теореме Байеса?


23

(Я новичок в статистике. Я математик и программист, и я пытаюсь создать что-то вроде наивного байесовского фильтра спама.)

Во многих местах я заметил, что люди склонны разбивать знаменатель в уравнении из теоремы Байеса. Итак, вместо этого:

P(A|B)P(B)P(A)

Нам представлено это:

P(A|B)P(B)P(A|B)P(B)+P(A|¬B)P(¬B)

Вы можете видеть, что это соглашение используется в этой статье Википедии и в этом проницательном посте Тимом Питерсом.

Я сбит с толку этим. Почему знаменатель так разрушен? Как это вообще помогает? Что такого сложного в расчете , который в случае спам-фильтров был бы ?P(A)The probability that the word "cheese" appears in an email, regardless of whether it's spam or not


Я подозреваю, что ответ зависит от домена (т. Е. От спам-фильтров). Если вы можете рассчитать компоненты P (A | B) и т. Д., То вы сможете рассчитать более простое P (A), как вы заявили. Или, возможно, ответ связан с педагогикой, чтобы читатели понимали связь между P (A) и его разложением в терминах P (A | B), P (B) и т. Д.

1
У меня нет сильного ответа, но я могу сказать, что допустил глупые ошибки в тестах, в которых я мог просто вставить даны в явный знаменатель, но я подумал, что знаю P (A), и я ошибался.
Уэйн

Ответы:


16

Короткий ответ на ваш вопрос: «Большую часть времени мы не знаем, что такое P (сыр), и его часто (относительно) сложно вычислить».

Более длинный ответ, почему правило / теорема Байеса обычно формулируется так, как вы написали, заключается в том, что в байесовских задачах у нас - сидя на коленях - предварительное распределение (P (B) выше) и вероятность (P (A | B), P (A | notB) выше), и это относительно простой вопрос умножения для вычисления апостериорного значения (P (B | A)). Попытка повторно выразить P (A) в его обобщенной форме - это усилие, которое можно потратить в другом месте.

Это может показаться не таким сложным в контексте электронного письма, потому что, как вы правильно заметили, это просто P (сыр), верно? Беда в том, что при более сложных байесовских задачах на поле боя знаменатель является неприглядным интегралом, который может иметь или не иметь решение в замкнутой форме. На самом деле, иногда нам нужны сложные методы Монте-Карло только для аппроксимации интеграла, и смена чисел может быть настоящей болью в тылу.

Но, что более важно, нам, как правило, даже не важно, что такое P (сыр). Имейте в виду, что мы пытаемся отточить наше убеждение относительно того, является ли электронная почта спамом , и не заботятся о предельном распределении данных (P (A), выше). В любом случае, это просто нормализация, которая не зависит от параметра; Акт суммирования стирает любую информацию, которую мы имели о параметре. Константа - это неудобство для вычисления и, в конечном счете, не имеет значения, когда нужно сосредоточиться на наших представлениях о том, является ли спам в письме. Иногда мы обязаны рассчитать его, и в этом случае самый быстрый способ сделать это с помощью информации, которая у нас уже есть: априорная и вероятностная.


Может ли кто-нибудь привести пример «неприглядного интеграла, который может иметь или не иметь решение в замкнутой форме», который будет использоваться в какой-то проблеме?
PaulG

8

Одна из причин использования правила полной вероятности состоит в том, что мы часто имеем дело с вероятностями компонентов в этом выражении, и найти предельную вероятность просто, просто вставив значения. Для иллюстрации этого см. Следующий пример в Википедии:

Другой причиной является признание эквивалентных форм правила Байеса путем манипулирования этим выражением. Например:

P(B|A)=P(A|B)P(B)P(A|B)P(B)+P(A|¬B)P(¬B)

Разделите через RHS на числитель:

P(B|A)=11+P(A|¬B)P(A|B)P(¬B)P(B)

Это хорошая эквивалентная форма для правила Байеса, которая стала еще удобнее, вычтя ее из исходного выражения, чтобы получить:

P(¬B|A)P(B|A)=P(A|¬B)P(A|B)P(¬B)P(B)

Это правило Байеса, сформулированное в терминах коэффициентов, то есть последующие коэффициенты против B = коэффициент Байеса против B, умноженные на предыдущие коэффициенты против B. (Или вы можете инвертировать его, чтобы получить выражение в терминах коэффициентов для B.) Соотношение вероятностей ваших моделей. Учитывая, что мы не уверены в базовом механизме генерации данных, мы наблюдаем за данными и обновляем наши убеждения.

Я не уверен, что вы найдете это полезным, но, надеюсь, это не сбивает с толку; очевидно, вы должны работать с выражением, которое лучше всего подходит для вашего сценария. Может быть, кто-то еще может подслушивать с еще лучшими причинами.


Вы можете пойти еще дальше и взять логи. Тогда у вас есть лог-апостериорное отношение = логарифмическое отношение предшественников + логарифмическое отношение правдоподобия
вероятностная логика

6

Предыдущие ответы достаточно подробны, но интуитивно понятный способ понять, почему P(A)

P(A)P(A|B)BP(A|B)P(A|¬B)B¬BP(A|B)P(A|¬B)п(В) а также п(¬В), Поэтому последнее выражение

п(A)знак равноп(A|В)п(В)+п(A|¬В)п(¬В)
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.