Статья о неправильном использовании статистического метода в NYTimes


20

Я имею в виду эту статью: http://www.nytimes.com/2011/01/11/science/11esp.html

Рассмотрим следующий эксперимент. Предположим, есть основания полагать, что монета была слегка утяжелена по отношению к головам. В тесте монета выпадает в голову 527 раз из 1000.

Является ли это значительным доказательством того, что монета взвешена?

Классический анализ говорит да. При честной монете шансы получить 527 или более голов за 1000 флипов меньше, чем 1 к 20, или 5 процентов, по сравнению с обычным отсечением. Другими словами: эксперимент находит свидетельство взвешенной монеты «с 95-процентной достоверностью».

Все же многие статистики не покупают это. Один из 20 - это вероятность получить любое количество голов выше 526 за 1000 бросков. То есть это сумма вероятности переворачивания 527, вероятности переворачивания 528, 529 и так далее.

Но эксперимент не нашел все числа в этом диапазоне; он нашел только одно - 527. Таким образом, по словам этих экспертов, точнее рассчитать вероятность получения этого одного числа - 527 - если монета взвешена, и сравнить ее с вероятностью получения того же числа, если монета справедливо.

Статистики могут показать, что это соотношение не может быть выше, чем примерно 4 к 1, согласно Полу Спекману, статистику, который, с Джеффом Роудером, психологом, привел пример.

Первый вопрос: это ново для меня. Есть ли у кого-нибудь ссылки, где я могу найти точные расчеты и / или вы МОЖЕТЕ помочь мне, дав мне точный расчет самостоятельно и / или можете ли вы указать мне какой-нибудь материал, где я могу найти похожие примеры?

Байес разработал способ обновления вероятности гипотезы, когда появляются новые доказательства.

Таким образом, при оценке силы данного вывода, байесовский (произносится BAYZ-ee-un) анализ включает известные вероятности, если таковые имеются, за пределами исследования.

Это можно назвать эффектом «Да, верно». Если исследование показало, что кумкваты снижают риск сердечных заболеваний на 90 процентов, что лечение излечивает алкогольную зависимость в неделю, что чувствительные родители в два раза чаще рожают девочку, чем мальчика, то байесовский ответ совпадает с ответом местный скептик: Да, верно. Результаты исследования сопоставляются с тем, что можно наблюдать в мире.

По крайней мере, в одной области медицины - диагностических скрининговых тестах - исследователи уже используют известные вероятности для оценки новых результатов. Например, новый тест на обнаружение лжи может быть точным на 90 процентов, правильно отметив 9 из 10 лжецов. Но если его дают населению в 100 человек, которое, как известно, включает в себя 10 лжецов, тест будет гораздо менее впечатляющим.

Он правильно идентифицирует 9 из 10 лжецов и пропускает одного; но это неправильно идентифицирует 9 из других 90 как ложь. Разделив так называемые истинные позитивы (9) на общее количество людей, помеченных тестом (18), мы получим показатель точности 50 процентов. «Ложные положительные результаты» и «ложные отрицательные результаты» зависят от известных показателей среди населения.

Второй вопрос: как вы точно оцениваете, является ли новый результат «реальным» или нет с помощью этого метода? И: Разве это не так произвольно, как 5% -ный барьер из-за использования некоторой предустановленной предварительной вероятности?


3
Для честных и недобросовестных монет это полезно прочитать: stat.columbia.edu/~gelman/research/published/diceRev2.pdf
mpiktas

Ответы:


31

Я отвечу на первый вопрос подробно.

При честной монете шансы получить 527 или более голов за 1000 флипов меньше, чем 1 к 20, или 5 процентов, по сравнению с обычным отсечением.

Для справедливой монеты количество голов в 1000 испытаний следует биномиальное распределение с числом испытаний и вероятности р = 1 / 2 . Тогда вероятность получения более 527 головn=1000p=1/2

P(B(1000,1/2)>=527)

Это можно рассчитать с помощью любого статистического программного пакета. R дает нам

> pbinom(526,1000,1/2,lower.tail=FALSE)
   0.04684365

Таким образом, вероятность того, что с честной монетой мы получим более 526 голов, составляет приблизительно 0,047, что близко к 5% отсечке, упомянутой в статье.

Следующее утверждение

Другими словами: эксперимент находит свидетельство взвешенной монеты «с 95-процентной достоверностью».

спорно. Я бы не хотел этого говорить, поскольку 95% достоверности можно интерпретировать несколькими способами.

Далее мы переходим к

Но эксперимент не нашел все числа в этом диапазоне; он нашел только одно - 527. Таким образом, по словам этих экспертов, точнее рассчитать вероятность получения этого одного числа - 527 - если монета взвешена, и сравнить ее с вероятностью получения того же числа, если монета справедливо.

В(1000,1/2)знак равно527В(1000,п)знак равно527

п(В(1000,п)знак равно527)п(В(1000,1/2)знак равно527)знак равноп527(1-п)473(1/2)1000,

п

Статистики могут показать, что это соотношение не может быть выше, чем примерно 4 к 1, согласно Полу Спекману, статистику, который, с Джеффом Роудером, психологом, привел пример.

п

пзнак равно5271000,

Мы можем проверить, что это действительно максимум, например, используя второй производный тест . Подставляя его в формулу, получаем

(527/1000)527(473/1000)473(1/2)10004.3

Так что соотношение составляет 4,3 к 1, что согласуется со статьей.


«Теперь максимизируйте это количество по отношению к p»: я думаю, вы имеете в виду минимизировать.
Саймон Бирн

@mpiktas (+1) Хороший (обновленный) ответ.
хл

1212p(12±ϵ)ϵ

@ Симон, почему коррекция сводится к минимуму? Разве найденное значение P не максимизирует соотношение?

@statnovice: в первоначальной версии ответа были переключены числитель и знаменатель.
Саймон Бирн
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.