То, что мы называем P-хакерством, - это применение теста значимости несколько раз и только сообщение о значимости результатов. Хорошо это или плохо, зависит от ситуации.
Чтобы объяснить, давайте подумаем об истинных эффектах в байесовских терминах, а не о нулевых и альтернативных гипотезах. До тех пор, пока мы считаем, что интересующие нас эффекты происходят от непрерывного распределения, мы знаем, что нулевая гипотеза неверна. Однако в случае двустороннего теста мы не знаем, является ли он положительным или отрицательным. В этом свете мы можем рассматривать p-значения для двухсторонних тестов как меру того, насколько убедительными являются доказательства того, что наша оценка имеет правильное направление (т. Е. Положительный или отрицательный эффект).
р < а
Теперь рассмотрим, что происходит, когда вы продолжаете возвращаться, чтобы получить больше данных. Каждый раз, когда вы получаете больше данных, ваша вероятность получения правильного направления при условии наличия достаточных данных только возрастает. Таким образом, в этом сценарии мы должны понимать, что, получая больше данных, хотя мы на самом деле увеличиваем вероятность ошибки типа I, мы также уменьшаем вероятность ошибочного вывода неверного направления.
Возьмите это в отличие от более типичного злоупотребления P-хакингом; мы тестируем сотни значений эффекта, которые имеют хорошую вероятность быть очень маленькими, и сообщаем только о значительных. Обратите внимание, что в этом случае, если все эффекты невелики, у нас есть почти 50% шанс ошибиться в направлении, когда мы объявляем значение.
Конечно, полученные значения p из этого двойного значения данных должны все еще идти с частичкой соли. Хотя в общем случае у вас не должно быть проблем с людьми, собирающими больше данных, чтобы быть более уверенными в размере эффекта, этим можно злоупотреблять другими способами. Например, умный ИП может понять, что вместо сбора всех 100 точек данных за один раз, он может сэкономить кучу денег и увеличить мощность, сначала собрав 50 точек данных, проанализировав данные, а затем собрав следующие 50, если это несущественно , В этом сценарии они увеличивают вероятность ошибочного направления направления эффекта при объявлении значимости, поскольку они с большей вероятностью ошибочно определяют направление эффекта при 50 точках данных, чем при 100 точках данных.
И наконец, подумайте о том, как не получить больше данных, когда у нас будет незначительный результат. Это означало бы, что мы никогда не собираем больше информации по этой теме, что на самом деле не продвинет науку вперед, не так ли? Одно слабое исследование убило бы целое поле.