Фактически, p-значения теперь, наконец, «вышли из моды»: http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 . Тестирование значимости нулевой гипотезы (NHST) дает немного больше, чем описание размера вашей выборки. (*) Любое экспериментальное вмешательство будет иметь некоторый эффект, то есть сказать, что простая нулевая гипотеза «без эффекта» всегда ложна в строгом смысле , Следовательно, «незначительный» тест просто означает, что размер вашей выборки был недостаточно большим; «значительный» тест означает, что вы собрали достаточно данных, чтобы «найти» что-то.
«Размер эффекта» представляет собой попытку исправить это путем введения меры в естественном масштабе проблемы. В медицине, где лечение всегда оказывает некоторый эффект (даже если это эффект плацебо), понятие «клинически значимый эффект» вводится для защиты от 50% -ной вероятности того, что «лечение» будет иметь «a ( статистически) значительный положительный эффект »(хотя и незначительный) в произвольно большом исследовании.
Если я понимаю природу вашей работы, кларнетист, то, в конце концов, ее законная цель - информировать о действиях / вмешательствах, которые улучшают образование в школах, находящихся под вашей компетенцией. Таким образом, ваша установка является теоретико-решающей , и байесовские методы являются наиболее подходящим (и однозначно согласованным [1] ) подходом.
В самом деле, лучший способ понять частые методы - это приближение к байесовским методам . Оцениваемый размер эффекта можно понимать как стремление к измерению центральности для байесовского апостериорного распределения , тогда как значение p можно понимать как стремление измерить один хвост этого заднего. Таким образом, вместе эти две величины содержат некоторую грубую суть байесовского апостериора, который представляет собой естественный вклад в теоретико-ориентированный взгляд на вашу проблему. (В качестве альтернативы, частичный доверительный интервал по величине эффекта можно также понимать как вероятный интервал .)
В области психологии и образования, байесовские методы на самом деле довольно популярны. Одна из причин этого заключается в том, что в байесовские модели легко установить «конструкции» в качестве скрытых переменных. Возможно, вы захотите проверить «книгу о щенках» Джона К. Крушке , психолога. В образовании (где у вас есть ученики, вложенные в классы, вложенные в школы, вложенные в районы, ...), иерархическое моделирование неизбежно. И байесовские модели также хороши для иерархического моделирования. На этот счет вы можете проверить Gelman & Hill [2].
[1]: Роберт, Кристиан П. Байесовский выбор: от теоретических основ принятия решений до вычислительной реализации. 2-е изд. Тексты Springer в статистике. Нью-Йорк: Спрингер, 2007.
[2]: Гельман, Эндрю и Дженнифер Хилл. Анализ данных с использованием регрессионных и многоуровневых / иерархических моделей. Аналитические методы социальных исследований. Кембридж; Нью-Йорк: издательство Кембриджского университета, 2007.
Для получения дополнительной информации о «согласованности» с точки зрения « необязательно бить вас по голове с байесовским кирпичом» см. [3].
[3]: Робинс, Джеймс и Ларри Вассерман. «Обусловливание, вероятность и согласованность: обзор некоторых основополагающих концепций». Журнал Американской статистической ассоциации 95, нет. 452 (1 декабря 2000 г.): 1340–46. DOI: 10.1080 / 01621459.2000.10474344.
(*) В [4] Мейл бичует NHST гораздо более элегантно, но не менее абразивно, чем я:
Поскольку нулевая гипотеза почти всегда ложна, таблицы, обобщающие исследования в терминах моделей «значительных различий», представляют собой не более чем сложные, причинно не интерпретируемые результаты статистических степенных функций.
[4]: Meehl, Paul E. «Теоретические риски и табличные звездочки: сэр Карл, сэр Рональд и медленный прогресс в мягкой психологии». Journal of Consulting and Clinical Psychiatry 46 (1978): 806–34. http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf
И вот связанная цитата от Tukey: /stats//a/728/41404