Мой опыт приходит из экспериментов А / Б онлайн, где проблема обычно заключается в недостаточном изучении или измерении неправильных вещей. Но мне кажется, что исследование с чрезмерным влиянием дает более узкие доверительные интервалы, чем сопоставимые исследования, более низкие значения p и, возможно, различную дисперсию. Я полагаю, что это может затруднить сравнение подобных исследований. Например, если бы я повторил исследование с избыточным усилием, используя надлежащую мощность, мое значение p было бы выше, даже если бы я точно повторил эффект. Увеличенный размер выборки может выровнять изменчивость или внести изменчивость, если есть выбросы, которые могут иметь более высокую вероятность появления в большей выборке.
Кроме того, мои моделирования показывают, что эффекты, отличные от тех, которые вас интересуют, могут стать значительными при увеличении выборки. Таким образом, хотя значение p правильно говорит вам о вероятности того, что ваши результаты реальны, они могут быть реальными по причинам, отличным от того, о чем вы думаете, например, по случайной комбинации, некоторому переходному эффекту, который вы не контролировали, и, возможно, другим меньший эффект вы ввели, не осознавая этого. Если исследование немного подавлено, риск этого низок. Проблема часто заключается в том, что сложно определить адекватную мощность, например, если базовые показатели и минимальный целевой эффект являются предположениями или оказываются не такими, как ожидалось.
Я также натолкнулся на статью, в которой утверждается, что слишком большая выборка может сделать тест соответствия качества слишком чувствительным к несущественным отклонениям, что приведет к потенциально нелогичным результатам.
Тем не менее, я считаю, что лучше ошибаться на стороне высокой, а не низкой мощности.