Что означает, что исследование перегружено?

11

У меня сложилось впечатление, что это означает, что ваши размеры выборки настолько велики, что вы можете обнаружить мельчайшие размеры эффекта. Эти величины эффекта, возможно, настолько малы, что они более вероятны в результате незначительных отклонений в процессе выборки, чем (не обязательно прямой) причинной связи между переменными.

Это правильная интуиция? Если это так, я не вижу, в чем дело, если результаты интерпретируются в этом свете, и вы вручную проверяете и видите, достаточно ли оценочный размер эффекта достаточно «значим» или нет.

Я что-то пропустил? Есть ли лучшая рекомендация относительно того, что делать в этом сценарии?

— Фрэнк Барри
источник

Звучит так же, как мое интуитивное понимание этого термина.

— Хенрик

11

Я думаю, что ваша интерпретация неверна.

Вы говорите: «Размеры этих эффектов, возможно, настолько малы, что, скорее всего, являются результатом небольших отклонений в процессе выборки, чем (не обязательно прямой) причинной связи между переменными», что, по-видимому, означает, что значение P в «перегруженном» исследование - это не то же самое, что значение P из «правильно» обоснованного исследования. Это не правильно. В обоих случаях значение P - это вероятность получения данных, таких же экстремальных, как наблюдаемые, или более экстремальных, если нулевая гипотеза верна.

Если вы предпочитаете подход Неймана-Пирсона, частота ложноположительных ошибок, полученных в исследовании с «избыточным питанием», будет такой же, как и в исследовании с «надлежащим» питанием, если для обоих используется одно и то же значение альфа.

Разница в интерпретации, которая необходима, заключается в том, что существует разная связь между статистической значимостью и научной значимостью для исследований с чрезмерной нагрузкой. По сути, чрезмерное исследование даст большую вероятность получения значимости, даже если этот эффект, как вы говорите, незначителен и, следовательно, имеет сомнительную важность.

До тех пор, пока результаты исследования «чрезмерной мощности» интерпретируются надлежащим образом (а доверительные интервалы для величины эффекта помогают в такой интерпретации), в исследовании «избыточной мощности» нет статистической проблемы. В этом свете единственными критериями, по которым исследование может быть перегружено, являются этические проблемы и проблемы распределения ресурсов, поднятые в других ответах.

— Майкл Лью
источник

Спасибо, это очень информативно. Я понимаю, что определение p-значения не меняется. Конечно, со статистической точки зрения частота ошибок типа I не увеличивается.

— Фрэнк Барри

1

По определению мы фиксируем частоту ошибок типа I при установке порога p-значения. Тем не менее, похоже, что здесь разница между «статистическим» и «практическим» значением. Когда размер выборки способен обнаружить различия, намного более мелкие, чем ожидаемый размер эффекта, разница, которая правильно статистически различна, практически не имеет смысла (и с точки зрения «конечного пользователя» это фактически является «ложным срабатыванием», даже если это не статистический). Однако, как вы говорите, это начинает выходить за рамки статистики.

— Фрэнк Барри

1

то есть я думаю, что согласен - «разница в интерпретации, которая необходима, заключается в том, что существует разная связь между статистической значимостью и научной значимостью»

— Фрэнк Барри,

4

В медицинских исследованиях исследования могут быть неэтичными, если они набирают слишком много пациентов. Например, если цель состоит в том, чтобы решить, какое лечение лучше, больше не этично больше лечить пациентов с худшим лечением после того, как было установлено, что оно хуже. Увеличение размера выборки, конечно, даст вам более точную оценку размера эффекта, но вам, возможно, придется остановиться задолго до появления таких факторов, как «незначительные искажения в процессе выборки».

Также может быть неэтично тратить государственные деньги на достаточно подтвержденные исследования.

— GaBorgulya
источник

1

Все, что вы сказали, имеет смысл (хотя я не знаю, о каком "большом деле" вы говорите), и я особенно. как ваша точка зрения о размерах эффекта в отличие от статистической значимости. Еще одно соображение заключается в том, что некоторые исследования требуют выделения ограниченных ресурсов для обеспечения участия в каждом случае, и поэтому никто не хотел бы переусердствовать.

— rolando2
источник

Извините, «большое дело» - это слишком много редакционных комментариев. Вопрос о том, является ли это «более крупной сделкой», чем я ее представляю, в основном является вопросом о том, существуют ли дополнительные соображения, о которых я могу не знать.

— Фрэнк Барри

0

Мой опыт приходит из экспериментов А / Б онлайн, где проблема обычно заключается в недостаточном изучении или измерении неправильных вещей. Но мне кажется, что исследование с чрезмерным влиянием дает более узкие доверительные интервалы, чем сопоставимые исследования, более низкие значения p и, возможно, различную дисперсию. Я полагаю, что это может затруднить сравнение подобных исследований. Например, если бы я повторил исследование с избыточным усилием, используя надлежащую мощность, мое значение p было бы выше, даже если бы я точно повторил эффект. Увеличенный размер выборки может выровнять изменчивость или внести изменчивость, если есть выбросы, которые могут иметь более высокую вероятность появления в большей выборке.

Кроме того, мои моделирования показывают, что эффекты, отличные от тех, которые вас интересуют, могут стать значительными при увеличении выборки. Таким образом, хотя значение p правильно говорит вам о вероятности того, что ваши результаты реальны, они могут быть реальными по причинам, отличным от того, о чем вы думаете, например, по случайной комбинации, некоторому переходному эффекту, который вы не контролировали, и, возможно, другим меньший эффект вы ввели, не осознавая этого. Если исследование немного подавлено, риск этого низок. Проблема часто заключается в том, что сложно определить адекватную мощность, например, если базовые показатели и минимальный целевой эффект являются предположениями или оказываются не такими, как ожидалось.

Я также натолкнулся на статью, в которой утверждается, что слишком большая выборка может сделать тест соответствия качества слишком чувствительным к несущественным отклонениям, что приведет к потенциально нелогичным результатам.

Тем не менее, я считаю, что лучше ошибаться на стороне высокой, а не низкой мощности.

— Влад
источник