Статистика.com опубликовала неправильный ответ?


28

Статистика.com опубликовала проблему недели: уровень мошенничества со страхованием жилья составляет 10% (одна из десяти претензий является мошеннической). Консультант предложил систему машинного обучения, чтобы рассмотреть претензии и классифицировать их как мошенничество или отсутствие мошенничества. Система на 90% эффективна в обнаружении мошеннических претензий, но только на 80% эффективна для правильной классификации претензий, не связанных с мошенничеством (ошибочно помечает каждого пятого как «мошенничество»). Если система классифицирует претензию как мошенническую, какова вероятность того, что она действительно является мошеннической?

https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true

Я и мой коллега независимо друг от друга придумали один и тот же ответ, и он не соответствует опубликованному решению.

Наше решение:

(0,9 * 0,1) / ((. 9 * .1) + (. 2 * 0,9)) = 1/3

Их решение:

Это проблема условной вероятности. (Это также проблема Байеса, но применение формулы в Байесовском правиле только помогает скрыть происходящее.) Рассмотрим 100 утверждений. 10 будет мошенническим, и система будет правильно помечать 9 из них как «мошенничество». 90 заявлений будут в порядке, но система неправильно классифицирует 72 (80%) как «мошенничество». Таким образом, всего 81 заявка была помечена как мошеннические, но только 9 из них, 11%, на самом деле являются мошенническими.

Кто был прав


4
похоже, что они исправили решение на своем веб-сайте, чтобы оно соответствовало тому, что вы рассчитали
нет

2
@ Нет, спокойно поправил ответ. подлый
Аксакал

Общая информация: в поведенческом процессе принятия решения эту проблему часто называют «проблемой с маммографией», поскольку ее обычное представление о вероятности того, что у пациента рак будет получен с положительной маммографией.
Кодиолог

«Хорошая новость заключается в том, что наша система классифицирует 90% мошенничества как мошенничество. Плохая новость заключается в том, что 80% не мошенничества классифицируется как мошенничество». Обратите внимание, что 11%, которые они рассчитывают, лишь немного выше, чем базовая ставка 10%. Модель машинного обучения, где уровень мошенничества во отмеченных случаях составляет всего 10% от базовой, довольно ужасен.
накопление

Ответы:


41

Я считаю, что вы и ваш коллега правы. Статистика.com имеет правильное мышление, но допускает простую ошибку. Мы ожидаем, что из 90 претензий «ОК» 20% из них будут ошибочно классифицированы как мошенничество, а не 80%. 20% из 90 - это 18, что приводит к 9 правильно идентифицированным претензиям и 18 некорректным претензиям с соотношением 1/3, что в точности соответствует правилу Байеса.


11

Ты прав. Решение, размещенное на веб-сайте, основано на неправильном прочтении проблемы в том, что 80% не мошеннических требований классифицируются как мошеннические, а не заданные 20%.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.