Статистика.com опубликовала проблему недели: уровень мошенничества со страхованием жилья составляет 10% (одна из десяти претензий является мошеннической). Консультант предложил систему машинного обучения, чтобы рассмотреть претензии и классифицировать их как мошенничество или отсутствие мошенничества. Система на 90% эффективна в обнаружении мошеннических претензий, но только на 80% эффективна для правильной классификации претензий, не связанных с мошенничеством (ошибочно помечает каждого пятого как «мошенничество»). Если система классифицирует претензию как мошенническую, какова вероятность того, что она действительно является мошеннической?
https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true
Я и мой коллега независимо друг от друга придумали один и тот же ответ, и он не соответствует опубликованному решению.
Наше решение:
(0,9 * 0,1) / ((. 9 * .1) + (. 2 * 0,9)) = 1/3
Их решение:
Это проблема условной вероятности. (Это также проблема Байеса, но применение формулы в Байесовском правиле только помогает скрыть происходящее.) Рассмотрим 100 утверждений. 10 будет мошенническим, и система будет правильно помечать 9 из них как «мошенничество». 90 заявлений будут в порядке, но система неправильно классифицирует 72 (80%) как «мошенничество». Таким образом, всего 81 заявка была помечена как мошеннические, но только 9 из них, 11%, на самом деле являются мошенническими.
Кто был прав