Что такое размер эффекта ... и почему он полезен?

18

У меня есть опыт работы на уровне начального уровня для выпускников (предположим, я знаю математическую статистику и вероятность на уровне бакалавриата (например, Wackerly et al., Ross 'Вероятность) и немного знаком с теорией мер).

Недавно я начал работу по созданию экспериментального дизайна и статистической отчетности в области статистики образования, и меня привлекли к проекту, в котором я в основном оцениваю показатели подотчетности для школ и должен анализировать данные, предлагать изменения и т. Д. Обратите внимание, что я единственный один в моем отделе с фоном математической статистики.

На моей позиции, люди настоятельно рекомендовали использовать величину эффекта для измерения эффективности программ. Единственный раз, когда я слышал о величине эффекта, это мой друг, который изучал психологию. У меня сложилось впечатление, что

Effect Size = \frac{Difference of Means}{Standard Deviation} .

$\text{Effect Size} = \dfrac{\text{Difference of Means}}{\text{Standard Deviation}}\text{.}$

Что такого полезного в этой метрике по сравнению с традиционным тестированием гипотез и почему я должен беспокоиться об этом? Для меня это выглядит не более чем тестовой статистикой для теста с двумя выборками. Я не вижу в этом ничего полезного, за исключением того, что, возможно, все в одном масштабе (и поэтому кто-то что-то действительно «нормализует»), но я подумал, что статистика тестов (как мне кажется, размер эффекта) вышла из моды и являются предпочтительными. $t$ $p$

effect-size group-differences

— Кларнетист
источник

Меня немного смущает "фоновая статистика начального уровня для выпускников"; первые два термина, кажется, противоречат друг другу. Можете ли вы уточнить, что это включает? Это что-то вроде начала статистики уровня выпускника или что-то еще?

— Glen_b

2

@Glen_b Да, начинается статистика для выпускников. Предположим, я знаю математическую статистику и вероятность на уровне бакалавриата (например, Вакерли и др., Вероятность Росса), и немного знаком с теорией мер.

— Кларнетист

3

Я могу сочувствовать, ОП. Исходя из фона математики / статистики, часто было удивительно обсуждать статистику со специалистами в области социологии или психологии, потому что у них разные термины для всего :), а иногда есть твердые представления о том, как именно что-то делать, независимо от того, лучшая статистическая практика, например, попытка убедить упрямого рецензента / редактора в том, что моделирование структурных уравнений не является решением всех проблем или что линейность не всегда является хорошим предположением! Тем не менее, я научился объединяться с этим сообществом довольно хорошо, через несколько лет!

— CrockGill

20

Это одна мера величины эффекта, но есть много других. Это, конечно , не тестовой статистики. Ваш размер эффекта часто называют Коэном (строго говоря, это правильно, только если SD оценивается с помощью MLE, т.е. без коррекции Бесселя ); в более общем смысле это называется «стандартизированная средняя разница». Возможно, это прояснит, что : $t$ $d$ $t\ne d$
То есть, "

\begin{aligned} d & знак равно \frac{{\bar{Икс}}_{2} - {\bar{Икс}}_{1}}{S D} \\ \neq \\ T & знак равно \frac{{\bar{Икс}}_{2} - {\bar{Икс}}_{1}}{S Е} \\ T & знак равно \frac{{\bar{Икс}}_{2} - {\bar{Икс}}_{1}}{\frac{S D}{\sqrt{N}}} \end{aligned}

$\begin{align} d &= \frac{\bar x_2 - \bar x_1}{SD} \\[10pt] &\ne \\[10pt] t &= \frac{\bar x_2 - \bar x_1}{SE} \\[10pt] t &= \frac{\bar x_2 - \bar x_1}{\frac{SD}{\sqrt N}} \\ \end{align}$

"отсутствует в формуле для стандартизированной средней разности.

/ \sqrt{N}

$/\sqrt N$

$0$ $N$ $p$ $N$

— Gung - Восстановить Монику
источник

15

Я ожидаю, что кто-то с опытом работы в более релевантной области (скажем, в области психологии или образования) даст лучший ответ, но я попробую.

« Размер эффекта » - это термин, имеющий более одного значения - который много лет назад приводил к некоторым запутанным разговорам, пока я в конце концов не пришел к этому пониманию. Здесь мы имеем дело с версией с масштабированием по стандартному отклонению («на сколько стандартных отклонений это изменилось?»)

Одной из причин рассмотрения такого рода «величины эффекта» в предметных областях, в которых они распространены, является то, что они часто имеют переменные, чьи конкретные значения не имеют существенного значения, но сконструированы так, чтобы пытаться измерить какую-то базовую вещь, которую трудно получить. в.

Например, представьте, что вы пытаетесь измерить удовлетворенность работой (возможно, для модели, которая связывает ее с каким-то набором независимых переменных, например, может включать некоторую обработку интереса). У вас нет никакого способа получить это напрямую, но вы можете (например) попытаться составить какую-то анкету, чтобы разобраться в разных ее аспектах, возможно, используя что-то вроде шкалы Лайкерта.

У другого исследователя может быть другой подход к измерению удовлетворенности работой, и поэтому ваши два набора измерений "Удовлетворенности" не могут быть напрямую сопоставлены - но если они имеют различные формы достоверности и т. Д., На которые эти вещи проверяются (так, чтобы они могут разумно измерять удовлетворение), тогда можно надеяться, что они будут иметь очень похожие величины эффекта; по крайней мере, размер эффекта будет более сопоставимым.

— Glen_b - Восстановить Монику
источник

3

делает очень хорошую работу по внедрению идеи «конструкции» без технических деталей. Но в вашей работе, кларнетист, вам нужно будет понять эту идею в некоторой глубине. Я настоятельно рекомендую первоисточник «обоснованность конструкции», статья Cronbach

— Дэвид С. Норрис

7

Приведенная выше формула показывает, как вы вычисляете d Коэна для связанных выборок (что, вероятно, то, что у вас есть?), Если они не связаны, вы можете вместо этого использовать объединенную дисперсию. Существуют различные статистические данные, которые скажут вам о величине эффекта, но d Коэна - это стандартизированная мера, которая может варьироваться от 0 до 3. Если у вас много разных переменных, было бы неплохо иметь стандартизированную меру, когда вы думаете о они все вместе. С другой стороны, многие люди предпочитают понимать величину эффекта с точки зрения измеряемых единиц. Зачем вычислять d, если у вас уже есть значения p? Вот пример из набора данных, с которым я сейчас работаю. Я смотрю на поведенческое вмешательство, проводимое в школах, измеряемое с помощью проверенных психологических опросников (с получением данных Лайкерта). Почти все мои переменные показывают статистически значимое изменение, возможно, неудивительное, поскольку у меня большая выборка (n = ~ 250). Тем не менее, для некоторых переменных Коэна dдовольно незначительно, скажем, 0,12, что указывает на то, что, хотя есть определенное изменение, оно не может быть клинически важным изменением и поэтому важно для обсуждения и интерпретации того, что происходит в данных. Эта концепция широко используется в психологии и науках о здоровье, где практикующим врачам (или школам, в вашем случае) необходимо учитывать реальную клиническую полезность лечения (или того, с чем они экспериментируют). D Коэна помогает нам ответить на вопросы о том, действительно ли стоит делать вмешательство (независимо от значений p). В медицинских науках им также нравится рассматривать NNT и оценивать это с точки зрения серьезности рассматриваемого состояния. Посмотрите на этот замечательный ресурс от @krstoffr http://rpsychologist.com/d3/cohend/

— jUST1N3
источник

2

То, что вы написали, не является тестовой статистикой. Это мера, используемая для определения того, насколько эти два средства различны. Как правило, размеры эффекта используются для количественной оценки того, насколько далеко от нулевых гипотез находится нечто. Например, если вы делаете анализ мощности для двух образцов $t$ -тест, вы можете количественно оценить мощность как функцию размера эффекта (для фиксированной $n$ Вы только что написали (что, я думаю, называется Коэном D). В других контекстах размер эффекта может быть чем-то другим.

Также нередко сообщать о величинах эффекта, используя величины выборки, которые могут совпадать с некоторыми известными статистическими данными, такими как корреляция Пирсона - истинный размер эффекта является основным коэффициентом корреляции, который генерировал данные, но корреляция выборки также является полезной информацией для есть иногда. Цель количественной оценки того, насколько далеки от нулевой гипотезы наблюдаемые данные, так или иначе, а не просто сообщать $p$ -значение и называть это днем.

— CrockGill
источник

2

Фактически, p-значения теперь, наконец, «вышли из моды»: http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 . Тестирование значимости нулевой гипотезы (NHST) дает немного больше, чем описание размера вашей выборки. (*) Любое экспериментальное вмешательство будет иметь некоторый эффект, то есть сказать, что простая нулевая гипотеза «без эффекта» всегда ложна в строгом смысле , Следовательно, «незначительный» тест просто означает, что размер вашей выборки был недостаточно большим; «значительный» тест означает, что вы собрали достаточно данных, чтобы «найти» что-то.

«Размер эффекта» представляет собой попытку исправить это путем введения меры в естественном масштабе проблемы. В медицине, где лечение всегда оказывает некоторый эффект (даже если это эффект плацебо), понятие «клинически значимый эффект» вводится для защиты от 50% -ной вероятности того, что «лечение» будет иметь «a ( статистически) значительный положительный эффект »(хотя и незначительный) в произвольно большом исследовании.

Если я понимаю природу вашей работы, кларнетист, то, в конце концов, ее законная цель - информировать о действиях / вмешательствах, которые улучшают образование в школах, находящихся под вашей компетенцией. Таким образом, ваша установка является теоретико-решающей , и байесовские методы являются наиболее подходящим (и однозначно согласованным [1] ) подходом.

В самом деле, лучший способ понять частые методы - это приближение к байесовским методам . Оцениваемый размер эффекта можно понимать как стремление к измерению центральности для байесовского апостериорного распределения , тогда как значение p можно понимать как стремление измерить один хвост этого заднего. Таким образом, вместе эти две величины содержат некоторую грубую суть байесовского апостериора, который представляет собой естественный вклад в теоретико-ориентированный взгляд на вашу проблему. (В качестве альтернативы, частичный доверительный интервал по величине эффекта можно также понимать как вероятный интервал .)

В области психологии и образования, байесовские методы на самом деле довольно популярны. Одна из причин этого заключается в том, что в байесовские модели легко установить «конструкции» в качестве скрытых переменных. Возможно, вы захотите проверить «книгу о щенках» Джона К. Крушке , психолога. В образовании (где у вас есть ученики, вложенные в классы, вложенные в школы, вложенные в районы, ...), иерархическое моделирование неизбежно. И байесовские модели также хороши для иерархического моделирования. На этот счет вы можете проверить Gelman & Hill [2].

[1]: Роберт, Кристиан П. Байесовский выбор: от теоретических основ принятия решений до вычислительной реализации. 2-е изд. Тексты Springer в статистике. Нью-Йорк: Спрингер, 2007.

[2]: Гельман, Эндрю и Дженнифер Хилл. Анализ данных с использованием регрессионных и многоуровневых / иерархических моделей. Аналитические методы социальных исследований. Кембридж; Нью-Йорк: издательство Кембриджского университета, 2007.

Для получения дополнительной информации о «согласованности» с точки зрения « необязательно бить вас по голове с байесовским кирпичом» см. [3].

[3]: Робинс, Джеймс и Ларри Вассерман. «Обусловливание, вероятность и согласованность: обзор некоторых основополагающих концепций». Журнал Американской статистической ассоциации 95, нет. 452 (1 декабря 2000 г.): 1340–46. DOI: 10.1080 / 01621459.2000.10474344.

(*) В [4] Мейл бичует NHST гораздо более элегантно, но не менее абразивно, чем я:

Поскольку нулевая гипотеза почти всегда ложна, таблицы, обобщающие исследования в терминах моделей «значительных различий», представляют собой не более чем сложные, причинно не интерпретируемые результаты статистических степенных функций.

[4]: Meehl, Paul E. «Теоретические риски и табличные звездочки: сэр Карл, сэр Рональд и медленный прогресс в мягкой психологии». Journal of Consulting and Clinical Psychiatry 46 (1978): 806–34. http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf

И вот связанная цитата от Tukey: /stats//a/728/41404

— Дэвид С. Норрис
источник

1

« Любое экспериментальное вмешательство будет иметь некоторый эффект» (мой акцент) - довольно сильное утверждение, как и последующее «всегда». В некоторых областях это, вероятно, отличное эмпирическое правило, но я думаю, что слишком опасно быть слишком размашистым. Я бы также предположил, что «[NHST] производит чуть больше, чем описание размера вашей выборки», можно поспорить: значение p возникает из взаимодействия между как размер образца и размера эффекта.

— Серебряная рыба

@ Silverfish, спасибо за ваш ответ. Я бы предложил вам привести пример, где мой взгляд на p-значения был бы «опасным». (Кстати, я немного выделил курсивом и использовал фразу «в строгом смысле слова» в ожидании жалобы, подобной вашей. Мое утверждение остается в силе.) Кроме того, хотя значение p действительно «возникает из взаимодействия» два других фактора, один из которых (размер выборки) в значительной степени является свободным параметром проектирования, выбранным произвольно. Этот произвольный выбор - это то, что отражает значение p. Два числа явно необходимы; почему не конечные точки доверительного интервала?

— Дэвид С. Норрис

2

В качестве примера: любой случай, когда мы можем разумно ожидать, что нулевая гипотеза верна, или, по крайней мере, мы не можем прямо заявить, что уверены, что это неверно, даже не потрудившись провести эксперимент или посмотреть на данные. Не все нули являются ложными: рассмотрим исследования в парапсихологии, такие как эксперименты по телепатии и предвидению, но многие нули верны в областях, которые вы можете считать более «научно обоснованными», таких как геномика.

— Серебряная рыба

5

-1, тут много проблем, ИМО. Тот факт, что 1 небольшой журнал по психологии запретил p-значения, не означает, что «p-значения теперь окончательно вышли из моды». Запрет был широко раскритикован (включая вежливое заявление ASA и не принимался никакими другими журналами в течение нескольких месяцев с тех пор. Я отмечаю, что журнал не требует перехода на байесовские методы (я полагаю, что вы предпочитаете) , но только рассмотрю его в каждом конкретном случае.

— gung - Восстановить Монику

3

Однако в настоящем эксперименте процесс рандомизации единиц нарушает эндогенные пути, что позволяет проверить прямой причинный путь от X до Y. Странно метафизически утверждать, что все переменные напрямую связаны в обоих направлениях, но если вы не придерживайтесь этого, бессмысленно утверждать, что «нулевая гипотеза« никакого эффекта »всегда ложна».

— gung - Восстановить Монику