Недавно я написал запись в блоге с вопросом, в которой лемма Неймана Пирсона была написана простыми словами и приводится пример. Я нашел пример открытия глаза в смысле четкой интуиции по лемме. Как и в случае с вероятностью, она основана на функции массовой дискретной вероятности, поэтому ее легче выполнить, чем при работе с PDF-файлами. Кроме того, примите во внимание, что я определяю отношение правдоподобия как вероятность альтернативной гипотезы против нулевой гипотезы, вопреки вашему утверждению леммы. Объяснение то же самое, но скорее чем меньше, чем сейчас больше. Я надеюсь, что это помогает...
Те из вас, кто занимается анализом данных и прошли некоторые курсы статистики, возможно, познакомились с леммой Неймана-Пирсона (NP-лемма). Сообщение простое, демонстрация не так уж и сложна, но мне всегда было трудно понять, о чем идет речь. Читая книгу «Распространенные ошибки в статистике» от PIGood и JWHardin, я получил объяснение и пример, которые помогли мне получить представление о NP-лемме, которую я всегда пропускал.
Не на 100% математически совершенном языке, что нам говорит Нейман-Пирсон, является то, что самый мощный тест, который можно придумать для проверки данной гипотезы на определенном уровне значимости, дается областью отклонения, сделанной всеми возможными наблюдениями, полученными из этого теста с отношение правдоподобия выше определенного порога ... вахххх! Кто сказал, что это было легко!
Сохраняйте спокойствие и деконструируйте лемму:
- Гипотеза . В статистике всегда работает с двумя гипотезами, что статистический тест должен отклонять или не отклонять. Существует нулевая гипотеза, которая не будет отвергнута, пока выборочные доказательства против нее не станут достаточно убедительными. Существует также альтернативная гипотеза, которую мы примем, если нулевое значение окажется ложным.
- Мощность теста (он же чувствительность) говорит нам, сколько раз мы будем правильно отвергать нулевую гипотезу, когда она ошибочна. Нам нужны мощные тесты, поэтому большую часть времени мы отвергаем нулевую гипотезу, мы правы!
- Уровень значимости теста (он же уровень ложных срабатываний) говорит нам, сколько раз мы будем ошибочно отвергать нулевую гипотезу, когда она верна. Мы хотим небольшой уровень значимости, поэтому в большинстве случаев мы отвергаем нулевую гипотезу, мы не ошибаемся!
- Область отклонения , учитывая все возможные результаты теста, область отклонения включает в себя те результаты, которые заставят нас отвергнуть нулевую гипотезу в пользу ее альтернативной.
- Вероятность - это вероятность увидеть наблюдаемый результат теста, учитывая, что нулевая гипотеза (Вероятность нулевой гипотезы) или альтернативная (Вероятность альтернативной гипотезы) были верными.
- Отношение правдоподобия - это отношение вероятности альтернативной гипотезы, деленное на вероятность нулевой гипотезы. Если результаты теста очень ожидаемые, если нулевая гипотеза верна по сравнению с альтернативной, отношение правдоподобия должно быть небольшим.
Достаточно определений! (хотя, если вы внимательно посмотрите на них, вы поймете, что они очень проницательны!). Давайте перейдем к тому, что говорят нам Нейман и Пирсон: если вы хотите провести максимально возможный статистический тест с точки зрения его мощности, просто определите область отклонения, включив результаты теста, которые имеют наивысший коэффициент вероятности, и продолжайте добавлять новые тесты. результаты до тех пор, пока вы не достигнете определенного значения для количества раз, когда ваш тест будет отклонять нулевую гипотезу, когда она верна (уровень значимости).
Давайте посмотрим на пример, где, надеюсь, все сойдется. Пример основан на книге, упомянутой выше. Это полностью сделано мной, поэтому его не следует рассматривать как отражающее какую-либо реальность или личное мнение.
Представьте, что кто-то хочет определить, выступает ли кто-то за установление иммиграционных квот (нулевая гипотеза) или нет (альтернативная гипотеза), спрашивая свои чувства по отношению к Европейскому союзу.
Представьте, что мы знали фактическое распределение вероятностей для обоих типов людей относительно ответа на наш вопрос:
Давайте представим, что мы готовы принять ложноположительную ошибку в 30%, то есть в 30% случаев мы отвергнем нулевую гипотезу и предположим, что опрошенный человек против квот, когда он / она действительно для них. Как бы мы построили тест?
По словам Неймана и Пирсона, мы сначала взяли бы результат с наибольшим отношением правдоподобия. Это ответ «очень похоже на ЕС» с соотношением 3. С этим результатом, если мы предположим, что кто-то против квот, когда он / она сказал, что «действительно любит ЕС», 10% времени мы бы назначали по квотам людей как против (значимость). Однако мы бы правильно классифицировали людей с квотами только в 30% случаев (власть), поскольку не все в этой группе имеют одинаковое мнение о ЕС.
Похоже, это плохой результат с точки зрения власти. Тем не менее, тест не делает много ошибок при неправильной классификации для людей квоты (значимость). Поскольку мы более гибки в отношении значимости, давайте посмотрим на следующий результат теста, который мы должны добавить к пакету ответов, которые отвергают нулевую гипотезу (область отклонения).
Следующий ответ с самым высоким отношением правдоподобия - «как в ЕС». Если мы используем ответы «очень нравится» и «как» ЕС в качестве результатов теста, которые позволяют нам отвергнуть нулевую гипотезу о том, что кто-то претендует на квоты, мы бы неправильно классифицировали квоты для людей как не в 30% случаев (10% от «очень нравится» и 20% от «нравится»), и мы будем правильно классифицировать против квот людей в 65% случаев (30% от «очень нравится» и 35% от «нравится»). В статистическом жаргоне: наше значение увеличилось с 10% до 30% (плохо!), В то время как сила нашего теста увеличилась с 30% до 65% (хорошо!).
Это ситуация, которую имеют все статистические тесты. Там нет ничего такого, как бесплатный обед даже в статистике! Если вы хотите увеличить силу своего теста, вы делаете это за счет повышения уровня значимости. Или, проще говоря: если вы хотите лучше классифицировать хороших парней, вы сделаете это за счет того, что плохие парни будут хорошо выглядеть!
В основном, теперь мы сделали! Мы создали самый мощный тест, который мы могли бы использовать с данными данными и уровнем значимости 30%, используя метки «действительно нравится» и «нравится», чтобы определить, кто-то против квот ... мы уверены?
Что бы произошло, если бы мы включили на втором этапе после того, как был выбран ответ «действительно нравится», вместо «нравится», ответ «равнодушный»? Значение теста было бы таким же, как и раньше, при 30%: 10% для людей с квотой отвечают «действительно», как и 20% для людей с квотой - «не нравится». Оба теста были бы столь же плохи при неправильной классификации для лиц с квотой. Однако сила будет ухудшаться! В новом тесте мы получили бы мощность 50% вместо 65%, которые у нас были раньше: 30% от «очень нравится» и 20% от «безразлично». С новым тестом мы были бы менее точны при идентификации по квоте!
Кто здесь помог? Соотношение правдоподобия Неймана и Человека замечательная идея! Принимая каждый раз ответ с наивысшим отношением правдоподобия, мы смогли включить в новый тест как можно большую мощность (большой числитель), сохраняя при этом значимость (маленький знаменатель)!