Мне нравится пример @ gui11aume (+1), но может сложиться впечатление, что разница в двух значениях возникает только из-за разных правил остановки, используемых двумя экспериментаторами.p
На самом деле, я считаю, что это гораздо более общее явление. Рассмотрим второго экспериментатора в ответе @ gui11aume: тот, кто бросает монету шесть раз и наблюдает за головами только в последнем броске. Результаты выглядят так:
TTTTTH,
p764р = 7 / 64 ≈ 0,109
3р = 3 / 64 ≈ 0,047,
Так что, если в этом случае частота ошибок была зафиксирована на α = 0,05то выбор статистики теста может легко сделать результаты значительными или нет, и это не имеет ничего общего с правилами остановки как таковыми .
Умозрительная часть
Теперь, с философской точки зрения, я бы сказал, что частый выбор тестовой статистики в некотором неопределенном смысле похож на байесовский выбор предшествующего уровня. Мы выбираем ту или иную тестовую статистику, потому что считаем, что недобросовестная монета будет вести себя тем или иным образом (и мы хотим иметь возможность обнаруживать это поведение). Разве это не похоже на установку типов монет?
Если это так, то принцип правдоподобия, гласящий, что все доказательства находятся в вероятности, не противоречит п-значения, потому что п-значение тогда не только «количество доказательств». Это «мера удивления», но что-то может быть мерилом удивления только в том случае, если это объясняет то, что нас удивит! п-значение пытается объединить в одной скалярной величине как доказательство, так и своего рода априорные ожидания (как представлено в выборе статистики теста). Если это так, то его не следует сравнивать с самой вероятностью, а, скорее, с задней?
Мне было бы очень интересно услышать некоторые мнения об этой умозрительной части здесь или в чате.
Обновите следующее обсуждение с @MichaelLew
Я боюсь, что мой пример выше упустил смысл этой дискуссии. Выбор другой тестовой статистики также приводит к изменению функции правдоподобия. Так два разныхп-значения, вычисленные выше, соответствуют двум различным функциям правдоподобия и, следовательно, не могут быть примером "столкновения" между принципом правдоподобия и п-ценности. Прелесть примера @ gui11aume в том, что функция правдоподобия остается точно такой же, хотяп-values differ.
I still have to think what this means for my "speculative" part above.