Поскольку можно рассчитать доверительные интервалы для p-значений, а противоположностью оценки интервалов является точечная оценка: является ли p-значение точечной оценкой?
Поскольку можно рассчитать доверительные интервалы для p-значений, а противоположностью оценки интервалов является точечная оценка: является ли p-значение точечной оценкой?
Ответы:
Точечные оценки и доверительные интервалы предназначены для параметров, которые описывают распределение, например, среднее или стандартное отклонение.
Но в отличие от других статистических данных выборки, таких как среднее значение выборки и стандартное отклонение выборки, значение p не является полезной оценкой интересного параметра распределения. Посмотрите на ответ @whuber для технических деталей.
Значение p для тестовой статистики дает вероятность того, что отклонение от ожидаемого значения тестовой статистики будет наименьшим по сравнению с наблюдаемым в выборке, рассчитанное в предположении, что нулевая гипотеза верна. Если у вас есть полное распределение, оно либо соответствует нулевой гипотезе, либо нет. Это можно описать с помощью индикаторной переменной (снова см. Ответ @whuber).
Но значение p нельзя использовать в качестве полезной оценки переменной индикатора, поскольку оно не является согласованным, поскольку значение p не сходится при увеличении размера выборки, если нулевая гипотеза верна. Это довольно сложный альтернативный способ заявить, что статистический тест может либо отклонить, либо не отклонить нулевое значение, но никогда не подтвердит его.
Да, можно (и было) утверждать, что значение p является точечной оценкой.
Чтобы определить какое-либо свойство распределения, которое может оценить p-значение, мы должны предположить, что оно асимптотически несмещено. Но, асимптотически, среднее значение p для нулевой гипотезы равно (в идеале; для некоторых тестов это может быть другое ненулевое число), а для любой другой гипотезы - . Таким образом, значение p можно считать оценкой половины индикаторной функции для нулевой гипотезы.0
По общему признанию требуется некоторая креативность, чтобы рассмотреть p-ценность таким способом. Мы могли бы сделать немного лучше, рассматривая рассматриваемую оценку как решение, которое мы принимаем с помощью p-значения: является ли базовое распределение членом нулевой гипотезы или альтернативной гипотезы? Давайте назовем это множество возможных решений . Джек Кифер пишет
Мы предполагаем, что существует эксперимент, исход которого может наблюдать статистик. Этот результат описывается случайной величиной или случайным вектором .... Закон вероятности неизвестен статистику, но известно, что функция распределения является членом указанного класса функций распределения. ...X F X Ω
Говорят, что статистическая проблема представляет собой проблему точечной оценки, если представляет собой набор возможных значений некоторого действительного или векторного свойства которое зависит от достаточно гладким образом.F F
В этом случае, поскольку дискретен, «достаточно гладкая» не является ограничением вообще. Терминология Кифера отражает это, ссылаясь на статистические процедуры с дискретными пространствами принятия решений как «тесты» вместо «точечных оценок».
Хотя интересно исследовать пределы (и ограничения) таких определений, поскольку этот вопрос предлагает нам сделать, возможно, нам не следует слишком настаивать на том, что значение p является точечной оценкой, поскольку это различие между оценщиками и тестами является одновременно полезный и обычный.
В комментарии к этому вопросу Кристиан Роберт обратил внимание на статью 1992 года, где он и соавторы взяли именно эту точку зрения и проанализировали допустимость значения p в качестве оценки функции индикатора . Смотрите ссылку в ссылках ниже. Бумага начинается,
Подходы к проверке гипотез обычно рассматривали проблему тестирования как решение, а не оценку. Точнее, формальная проверка гипотез приведет к выводу о том, верна ли гипотеза, и не обеспечит определенную степень доказательств для связи с этим выводом. В этой статье мы рассматриваем проверку гипотез как проблему оценки в рамках теоретико-принятия решений ....
[Акцент добавлен.]
Цзюнн Цон Хванг, Джордж Казелла, Кристиан Роберт, Мартин Т. Уэллс и Роджер Х. Фаррелл, Оценка точности при тестировании . Энн. Statist. Том 20, № 1 (1992), 490-509. Открытый доступ .
Джек Карл Кифер, Введение в статистический вывод . Springer-Verlag, 1987.
-значение не используется для оценки любого интересующего параметра, но для проверки гипотез. Например, вас может заинтересовать оценка численности населения на основе имеющейся у вас выборки, или вас может заинтересовать интервальная оценка этого показателя, но в сценарии проверки гипотезы лучше сравнить среднее значение выборки со средним значением населения чтобы увидеть, если они отличаются. На самом деле в сценарии проверки гипотез вас не интересуют их конкретные значения, а скорее, если они ниже определенного порога (например, ). С μ ¯ x μ p < 0,05 p p-значит, что вы не очень заинтересованы в их точечных значениях, а скорее хотите знать, достаточно ли в ваших данных доказательств против нулевой гипотезы. В сценарии проверки гипотез вы не будете сравнивать различные друг с другом, а скорее будете использовать каждое из них для принятия отдельных решений относительно ваших гипотез. Вы действительно не хотите ничего знать о гипотезе корпуса, насколько вы знаете, можете ли вы отвергнуть ее или нет. Это делает их значения неотделимыми от контекста решения, и поэтому они отличаются от точечных оценок, потому что с точечными оценками нас интересуют их значения как таковые.