Является ли априорный анализ мощности по существу бесполезным?

На прошлой неделе я присутствовал на собрании Общества личностной и социальной психологии, где увидел выступление Ури Симонсона, в котором говорилось, что использование априорного анализа мощности для определения размера выборки по существу бесполезно, поскольку его результаты настолько чувствительны к предположениям.

Конечно, это утверждение противоречит тому, чему меня учили на уроках методики, и рекомендациям многих выдающихся методистов (особенно Коэна, 1992 ), поэтому Ури представил некоторые доказательства, касающиеся его утверждения. Я попытался воссоздать некоторые из этих доказательств ниже.

Для простоты давайте представим ситуацию, когда у вас есть две группы наблюдений, и предположим, что величина эффекта (измеряемая стандартизированной средней разницей) равна . Стандартный расчет мощности (выполненный с использованием пакета ниже) скажет, что вам понадобится наблюдений, чтобы получить 80% мощности с этим дизайном. $.5$ Rpwr $128$

require(pwr)

size <- .5
# Note that the output from this function tells you the required observations per group
# rather than the total observations required
pwr.t.test(d = size, 
           sig.level = .05, 
           power = .80, 
           type = "two.sample", 
           alternative = "two.sided")

Обычно, однако, наши предположения о предполагаемом размере эффекта (по крайней мере, в области социальных наук, который является моей областью исследования) - это очень грубые предположения. Что произойдет, если наши предположения о размере эффекта немного не соответствуют? Быстрый расчет мощности говорит о том, что если размер эффекта равен вместо , вам нужно наблюдений - в раза больше числа, которое вам потребуется, чтобы иметь достаточную мощность для величины эффекта . Аналогично, если размер эффекта составляет , вам нужно всего лишь наблюдений, 70% от того, что вам потребуется, чтобы иметь достаточную мощность для определения величины эффекта $.4$ $.5$ $200$ $1.56$ $.5$ $.6$ $90$ $.50$ . Практически говоря, диапазон в оценочных наблюдениях довольно велик - $90$ до . $200$

Один из ответов на эту проблему заключается в том, что вместо того, чтобы просто догадываться о том, каким может быть размер эффекта, вы собираете доказательства о размере эффекта, либо из прошлой литературы, либо с помощью пилотного тестирования. Конечно, если вы проводите пилотное тестирование, вы бы хотели, чтобы ваш пилотный тест был достаточно маленьким, чтобы вы не просто запускали версию своего исследования, просто чтобы определить размер выборки, необходимый для проведения исследования (т.е. хотите, чтобы размер выборки, использованной в пилотном тесте, был меньше размера выборки вашего исследования).

Ури Симонсон утверждал, что пилотное тестирование с целью определения величины эффекта, используемого в вашем анализе мощности, бесполезно. Рассмотрим следующую симуляцию, в которой я участвовал R. Это моделирование предполагает, что размер эффекта населения составляет . Затем он проводит «пилотных испытаний» размера 40 и составляет таблицу рекомендуемого каждого из 10000 пилотных испытаний. $.5$ $1000$ $N$

set.seed(12415)

reps <- 1000
pop_size <- .5
pilot_n_per_group <- 20
ns <- numeric(length = reps)

for(i in 1:reps)
{
  x <- rep(c(-.5, .5), pilot_n_per_group)
  y <- pop_size * x + rnorm(pilot_n_per_group * 2, sd = 1)
  # Calculate the standardized mean difference
  size <- (mean(y[x == -.5]) - mean(y[x == .5])) / 
          sqrt((sd(y[x == -.5])^2 + sd(y[x ==.5])^2) / 2)

  n <- 2 * pwr.t.test(d = size,
                      sig.level = .05, 
                      power = .80,
                      type = "two.sample", 
                      alternative = "two.sided")$n

  ns[i] <- n
}

Ниже приведен график плотности на основе этого моделирования. Я пропустил пилотных теста, которые рекомендовали количество наблюдений выше чтобы сделать изображение более понятным. Даже сосредоточив внимание на менее экстремальных результатах моделирования, есть огромные различия в , рекомендованные $204$ $500$ $Ns$ пилотных испытаний. $1000$

введите описание изображения здесь

Конечно, я уверен, что проблема чувствительности к допущениям только ухудшается, так как дизайн становится все более сложным. Например, в проекте, требующем спецификации структуры со случайными эффектами, природа структуры со случайными эффектами будет иметь драматические последствия для мощности проекта.

Итак, что вы все думаете об этом аргументе? Является ли априорный анализ мощности по существу бесполезным? Если это так, то как исследователи должны планировать размер своих исследований?

— Патрик С. Форшер
источник

Это звучит как осуждение бессмысленного анализа силы, а не самого анализа силы. Более серьезный вопрос заключается в том, является ли это нападением на соломенного человека или действительно есть много людей, которые проводят свои силовые анализы (или любые другие анализы) без учета их чувствительности к предположениям. Если последнее верно, это хорошо, чтобы просветить их, но я надеюсь, что они не станут настолько обескуражены, чтобы отказаться от всех усилий по планированию своих экспериментов!

— whuber

Напоминает мне довольно много stats.stackexchange.com/q/2492/32036 , и не только из-за синтаксического сходства в формулировке заглавного вопроса. Кажется, вопрос о том, как понять предположения. Главное в обоих случаях - понять чувствительность этих анализов к предвзятости, а не делать широкие суждения «все или ничего» о том, что их предположения (а) абсолютно важны или (б) совершенно незначительны. Это ключ к полезному и не вредному выводу в целом. Боюсь, это не соломенный человек; люди слишком часто думают об абсолюте, когда не знают, не могут знать или не заботятся.

— Ник Стаунер,

Я не хотел добавлять это в вопрос, потому что меня интересовали рекомендации, которые делали другие, но рекомендация Ури Саймонсона в конце выступления состояла в том, чтобы дать вашему исследованию возможность определить наименьший эффект, который вас волнует.

— Патрик С. Форшер

@ PatrickS.Forscher: Итак, после того, как все сказано и сделано, он верит в априорный анализ мощности. Он просто считает, что размер эффекта должен быть выбран разумно: не догадка о том, что это может быть, а минимальное значение, которое вас волнует. Похоже на описание анализа мощности в учебнике: убедитесь, что у вас достаточно данных, чтобы то, что вы считаете практически существенным различием, проявилось как статистически значимое различие.

— Уэйн

То, как Ури сформулировал беседу, я думаю, он считает, что априорный анализ власти бесполезен, как это обычно делают в социальных науках, но, возможно, не так, как это преподают в других местах. На самом деле, меня учили основывать свой анализ мощности на разумном предположении о величине эффекта, который я ищу, а не о том, какой эффект мне нужен на практике.

— Патрик С. Форшер

Основная проблема здесь верна и довольно хорошо известна в статистике. Тем не менее, его интерпретация / претензия является крайним. Есть несколько вопросов для обсуждения:

$N$ $\sqrt N$ $N$ $50\%$ $80\%$ $d$ $d$ $d = .5$ $N = 128$ $\approx 7.9\%$ $\approx 5.5\%$ $.1$ $\approx 16.9\%$ $.1$ $\approx 12.6\%$

введите описание изображения здесь

$d$

$80\%$

Во-вторых, что касается более широкого утверждения о том, что анализ силы (априори или иным образом) основывается на предположениях, неясно, что следует делать с этим аргументом. Конечно они делают. Так же и все остальное. Не анализировать мощность, а просто собрать объем данных на основе числа, которое вы выбрали из шляпы, и затем проанализировать ваши данные, не улучшит ситуацию. Более того, ваши итоговые анализы будут по-прежнему основываться на допущениях, как всегда делают все анализы (силовые или иные). Если вместо этого вы решите, что будете продолжать собирать данные и повторно анализировать их до тех пор, пока не получите понравившуюся вам картину или не устанете от нее, это будет гораздо менее обоснованным (и все равно повлечет за собой предположения, которые могут быть невидимы для говорящего, но которые существуют, тем не менее). Проще говоря,нет никакого способа обойти тот факт, что в исследовании и анализе данных делаются предположения .

Вы можете найти эти ресурсы, представляющие интерес:

Kraemer, HC, Mintz, J., Noda, A., Tinklenberg, J. & Yesavage, JA (2006). Предостережение относительно использования экспериментальных исследований для руководства расчетами мощности для учебных предложений , Archives of General Psychiatry, 63 , 5, pp. 484-489.
Uebersax, JA (2007). Байесовский безусловный энергетический анализ. http://www.john-uebersax.com/stat/bpower.htm

— Gung - Восстановить Монику
источник

Я думаю, что аргумент Ури Симонсона состоял не в том, что предположения сами по себе плохие, а в том, что анализ мощности в целом настолько чувствителен к предположениям, что делает их бесполезными для планирования размеров выборки. Тем не менее, ваши очки отлично, как и ссылки, которые вы предоставили (+1).

— Патрик С. Форшер

Ваши правки продолжают улучшать и без того отличный ответ. :)

— Патрик С. Форшер

Я согласен, что это отличный ответ, и я просто хотел, чтобы вы (и другие) знали, что я процитировал вас в недавнем сообщении в блоге, которое я написал по этой теме: jakewestfall.org/blog/index.php/2015/06/ 16 /…

— Джейк Уэстфолл,

@JakeWestfall, хороший пост! С другой стороны, когда вы изучаете куки, вы делаете это прежде всего, поедая их? Вам нужен статистический консультант по любому из этих проектов?

— gung - Восстановить Монику