Эта статья « Шансы, постоянно обновляемая» из NY Times привлекла мое внимание. Короче говоря, говорится, что
[Байесовская статистика] оказывается особенно полезной при решении сложных проблем, в том числе поисков, подобных той, которую береговая охрана использовала в 2013 году, чтобы найти пропавшего рыбака Джона Олдриджа (хотя пока не до сих пор в поиске рейса 370 Malaysia Airlines) ...... Байесовская статистика пронизывает все: от физики до исследований рака, от экологии до психологии ...
В этой статье также есть некоторые критические замечания о p-значении часто встречающегося, например:
Результаты обычно считаются «статистически значимыми», если значение р составляет менее 5 процентов. Но в этой традиции есть опасность, сказал Эндрю Гельман, профессор статистики в Колумбии. Даже если ученые всегда делали вычисления правильно - и они этого не делают, утверждает он, - принятие всего с p-значением 5 процентов означает, что один из 20 «статистически значимых» результатов - не что иное, как случайный шум.
Помимо вышесказанного, пожалуй, самая известная статья, критикующая p-значение, - «Научный метод: статистические ошибки» Реджины Нуццо из Nature , в котором обсуждалось множество научных вопросов, возникающих в связи с p-значением, таких как проблемы воспроизводимости, взлом p-значения и т. д.
Значения P, «золотой стандарт» статистической достоверности, не так надежны, как полагают многие ученые. ...... Возможно, худшей ошибкой является вид самообмана, для которого психолог Ури Симонсон из Университета Пенсильвании и его коллеги популяризировали термин P-хакерство; это также известно как выемка данных, слежка, лов рыбы, преследование значимости и двойное погружение. «P-хакерство», - говорит Симонсон, - «пробует несколько вещей, пока не получит желаемый результат» - даже неосознанно. ...... «Похоже, что это заключение было получено с помощью p-хакерства, авторы отказались от одного из условий, чтобы общее значение p было меньше 0,05», и «Она p-хакер, она всегда отслеживает данные во время их сбора ».
Другое дело, интересный сюжет, как следует отсюда , с комментарием о сюжете:
Независимо от того, насколько малым может быть ваш эффект, вы всегда можете выполнить тяжелую работу по сбору данных, чтобы преодолеть порог p <0,05. Пока исследуемый эффект не существует, p-значения просто измеряют, сколько усилий вы потратили на сбор данных.
Со всем выше, мои вопросы:
Что именно означает аргумент Эндрю Гельмана во второй цитате блока? Почему он интерпретировал 5-процентное значение p как «один из 20 статистически значимых результатов - это случайный шум»? Я не убежден, так как для меня p-значение используется для определения одного исследования. Его точка зрения связана с множественным тестированием.
Обновление: проверьте блог Эндрю Гельмана об этом: Нет, я этого не говорил! (Авторы @ Scortchi, @whuber).
Учитывая критику в отношении p-значения, а также учитывая, что существует множество информационных критериев, таких как AIC, BIC, Мэллоу для оценки значимости модели (следовательно, переменных), если мы не будем использовать p-значение для выбора переменных в все, но использовать эти критерии выбора модели?
- Есть ли хорошие практические рекомендации по использованию p-значения для статистического анализа, которые могут привести к более надежным результатам исследований?
Будет ли байесовская модель моделирования более эффективным способом, как утверждают некоторые статистики? В частности, будет ли байесовский подход с большей вероятностью разрешать ложные поиски или манипулировать проблемами с данными? Я также не убежден здесь, так как предварительный подход очень субъективен в байесовском подходе. Существуют ли какие-либо практические и общеизвестные исследования, которые показывают, что байесовский подход лучше, чем частичное р-значение, или, по крайней мере, в некоторых конкретных случаях?
Обновление: я был бы особенно заинтересован в том, есть ли случаи, когда байесовский подход более надежен, чем подход частого p-значения. Под «надежным» я подразумеваю байесовский подход с меньшей вероятностью манипулировать данными для получения желаемых результатов. Какие-либо предложения?
Обновление 9/9/2015
Просто заметил новости и подумал, что было бы хорошо выложить их сюда для обсуждения.
Психология журнала запрещает значения P
Спорный статистический тест наконец-то завершился, по крайней мере, в одном журнале. Ранее в этом месяце редакторы «Базовой и прикладной социальной психологии» (BASP) объявили, что журнал больше не будет публиковать статьи, содержащие значения P, поскольку статистика слишком часто использовалась для поддержки исследований более низкого качества.
Наряду с недавней статьей «Непостоянное значение P генерирует невоспроизводимые результаты» от Nature , о значении P.
Обновление 08.05.2016
Еще в марте Американская статистическая ассоциация (ASA) опубликовала заявления о статистической значимости и значениях p: «.... Заявление ASA предназначено для того, чтобы направить исследования в« эпоху после p <0,05 ».»
Это утверждение содержит 6 принципов, которые касаются неправильного использования значения p:
- P-значения могут указывать, насколько несовместимы данные с указанной статистической моделью.
- Значения P не измеряют вероятность того, что изученная гипотеза верна, или вероятность того, что данные были получены только по случайной случайности.
- Научные выводы и деловые или политические решения не должны основываться только на том, превышает ли значение p определенный порог.
- Правильный вывод требует полной отчетности и прозрачности.
- Значение р, или статистическая значимость, не измеряет размер эффекта или важность результата.
- Само по себе значение p не дает достаточных доказательств в отношении модели или гипотезы.
Подробности: «Заявление ASA о p-значениях: контекст, процесс и цель» .