Является ли p-значение точечной оценкой?


32

Поскольку можно рассчитать доверительные интервалы для p-значений, а противоположностью оценки интервалов является точечная оценка: является ли p-значение точечной оценкой?


6
Я не верю, что можно рассчитать доверительные интервалы для p-значения; это статистика, рассчитанная на основе данных, а не параметр, описывающий процесс создания данных. Конечно, вы все равно можете спросить, какую статистику оценивает.
Scortchi - Восстановить Монику

1
@Scortchi: но если бы я применил, например, начальную загрузку, чтобы вычислить распределение значений p, а затем должен был построить 95-процентный интервал процентили этого загрузочного распределения, тогда, если это не доверительный интервал для значения p - что это ?
говорит амеба: восстанови монику

2
@amoeba: доверительный интервал равен неизвестному параметру, а ваш интервал начальной загрузки - приблизительная 95-процентная область для статистики.
Сиань

@ Scorthci: я видел программное обеспечение, которое печатает CI для p-значений. В этом случае приблизительные значения p были рассчитаны с помощью тестов перестановки, поэтому, если бы CI был слишком широким (т. Е. P-значение и p-значение ), вы должны использовать больше перестановок, прежде чем делать вывод. [ 0.05 , 1 ][0,0.05][0.05,1]
Клифф AB

4
@Cliff Это не доверительный интервал для р-значение ква свойства распределения: это доверительный интервал для стохастического оценивания в р-значении теста для конкретного образца. Хотя они звучат одинаково, и оба являются интервалами, они совершенно разные вещи.
whuber

Ответы:


23

Точечные оценки и доверительные интервалы предназначены для параметров, которые описывают распределение, например, среднее или стандартное отклонение.

Но в отличие от других статистических данных выборки, таких как среднее значение выборки и стандартное отклонение выборки, значение p не является полезной оценкой интересного параметра распределения. Посмотрите на ответ @whuber для технических деталей.

Значение p для тестовой статистики дает вероятность того, что отклонение от ожидаемого значения тестовой статистики будет наименьшим по сравнению с наблюдаемым в выборке, рассчитанное в предположении, что нулевая гипотеза верна. Если у вас есть полное распределение, оно либо соответствует нулевой гипотезе, либо нет. Это можно описать с помощью индикаторной переменной (снова см. Ответ @whuber).

Но значение p нельзя использовать в качестве полезной оценки переменной индикатора, поскольку оно не является согласованным, поскольку значение p не сходится при увеличении размера выборки, если нулевая гипотеза верна. Это довольно сложный альтернативный способ заявить, что статистический тест может либо отклонить, либо не отклонить нулевое значение, но никогда не подтвердит его.


3
Большинство лучших отчетов о статистических тестах (Lehman, Kiefer и т. Д.) Вообще не относятся к «популяциям», а вместо этого описывают ситуацию с точки зрения оценки параметров распределений. Это не требует, чтобы случайность была обусловлена ​​исключительно выборкой, и, таким образом, теория может более широко применяться в ситуациях, когда случайность является частью модели .
whuber

2
Но вы явно опровергли, что с утверждением «нет вероятностей, связанных с населением вообще». Обратите также внимание, что все оценки «явно определены на уровне образца». Поэтому трудно определить, какое различие вы пытаетесь провести в этом посте.
whuber

2
Конечно! Но распределение не население.
whuber

4
(-1) Я согласен с обоюдно-чувственным ответом @Tim и второстепенным ответом whuber, но я изо всех сил пытаюсь разобраться в этом. (1) «Но значение p не является параметром совокупности, поскольку оно явно определено на уровне выборки»: на это, несомненно, стоит обратить внимание, но «но» заставляет думать, что вы говорите, что значение p может не может быть оценкой чего-либо, потому что это выборочная статистика, как будто среднее значение выборки не может быть оценкой чего-либо, потому что это выборочная статистика. ...
Scortchi - Восстановить Монику

2
(2) «Это потому, что нет никаких вероятностей, связанных с населением, оно считается фиксированным, но неизвестным»: (a) p-значение не рассчитывается по выборке, потому что «нет вероятностей [.. .] "; (б) как указывал @uuber, выборка из конечной популяции является особым случаем; (c) в любом случае из того, что вы сказали, просто не следует, что значение p ничего не оценивает в популяции.
Scortchi - Восстановить Монику

21

Да, можно (и было) утверждать, что значение p является точечной оценкой.

Чтобы определить какое-либо свойство распределения, которое может оценить p-значение, мы должны предположить, что оно асимптотически несмещено. Но, асимптотически, среднее значение p для нулевой гипотезы равно (в идеале; для некоторых тестов это может быть другое ненулевое число), а для любой другой гипотезы - . Таким образом, значение p можно считать оценкой половины индикаторной функции для нулевой гипотезы.01/20


По общему признанию требуется некоторая креативность, чтобы рассмотреть p-ценность таким способом. Мы могли бы сделать немного лучше, рассматривая рассматриваемую оценку как решение, которое мы принимаем с помощью p-значения: является ли базовое распределение членом нулевой гипотезы или альтернативной гипотезы? Давайте назовем это множество возможных решений . Джек Кифер пишетD

Мы предполагаем, что существует эксперимент, исход которого может наблюдать статистик. Этот результат описывается случайной величиной или случайным вектором .... Закон вероятности неизвестен статистику, но известно, что функция распределения является членом указанного класса функций распределения. ...X F X ΩXXFXΩ

Говорят, что статистическая проблема представляет собой проблему точечной оценки, если представляет собой набор возможных значений некоторого действительного или векторного свойства которое зависит от достаточно гладким образом.F FDFF

В этом случае, поскольку дискретен, «достаточно гладкая» не является ограничением вообще. Терминология Кифера отражает это, ссылаясь на статистические процедуры с дискретными пространствами принятия решений как «тесты» вместо «точечных оценок».D

Хотя интересно исследовать пределы (и ограничения) таких определений, поскольку этот вопрос предлагает нам сделать, возможно, нам не следует слишком настаивать на том, что значение p является точечной оценкой, поскольку это различие между оценщиками и тестами является одновременно полезный и обычный.


В комментарии к этому вопросу Кристиан Роберт обратил внимание на статью 1992 года, где он и соавторы взяли именно эту точку зрения и проанализировали допустимость значения p в качестве оценки функции индикатора . Смотрите ссылку в ссылках ниже. Бумага начинается,

Подходы к проверке гипотез обычно рассматривали проблему тестирования как решение, а не оценку. Точнее, формальная проверка гипотез приведет к выводу о том, верна ли гипотеза, и не обеспечит определенную степень доказательств для связи с этим выводом. В этой статье мы рассматриваем проверку гипотез как проблему оценки в рамках теоретико-принятия решений ....

[Акцент добавлен.]


Ссылки

Цзюнн Цон Хванг, Джордж Казелла, Кристиан Роберт, Мартин Т. Уэллс и Роджер Х. Фаррелл, Оценка точности при тестировании . Энн. Statist. Том 20, № 1 (1992), 490-509. Открытый доступ .

Джек Карл Кифер, Введение в статистический вывод . Springer-Verlag, 1987.


2
Хм. Я не уверен, что это мнение полезно. Для одного в этом смысле p-значение не является хорошей оценкой, поскольку оно не соответствует, если нулевая гипотеза верна. А в некоторых случаях (вы упоминаете об этом) он также зависит от размера выборки. Это может быть технически верно, но любое случайное число может быть (ужасным) оценщиком для любого параметра.
Эрик

10
Вопрос не задает, является ли значение p хорошей оценкой, @Erik. Как оценщик, он имеет очевидные недостатки. Например, его асимптотическая дисперсия для нулевой гипотезы отлична от нуля. Обратите внимание, что смещение почти каждой объективной оценки зависит от размера выборки. Хотя вы правы в том, что независимое случайное число можно рассматривать как оценщик, оно будет оценкой чего-то другого: оно будет оценивать свое собственное среднее значение (по определению). Таким образом, ваши возражения не имеют никакого отношения к данному вопросу.
whuber

7
Я не думаю, что мы отличаемся ни по одному из этих пунктов, @Erik, за исключением, возможно, «бесполезной» части. Как отмечает Ник Кокс в комментарии в другом месте этой темы, тем не менее интересно рассмотреть тот смысл, в котором значение p можно считать оценщиком, и что именно оно может оценивать. Это может помочь нам лучше понять, что такое p-значение (а что нет). Многие считают это полезным упражнением.
whuber

7
В статье 1992 года мы изучаем значение как оценку индикаторной функции и демонстрируем, что она может быть допустимой оценкой для односторонней гипотезы и не может быть допустимой для двусторонних гипотез. I Θ 0 ( θ )pIΘ0(θ)
Сиань

1
@ Сиань, я вижу, мы позади тебя всего на 23 года ... Спасибо за ссылку!
whuber

11

p -значение не используется для оценки любого интересующего параметра, но для проверки гипотез. Например, вас может заинтересовать оценка численности населения на основе имеющейся у вас выборки, или вас может заинтересовать интервальная оценка этого показателя, но в сценарии проверки гипотезы лучше сравнить среднее значение выборки со средним значением населения чтобы увидеть, если они отличаются. На самом деле в сценарии проверки гипотез вас не интересуют их конкретные значения, а скорее, если они ниже определенного порога (например, ). С μ ¯ x μ p < 0,05 p pμx¯μp<0.05p-значит, что вы не очень заинтересованы в их точечных значениях, а скорее хотите знать, достаточно ли в ваших данных доказательств против нулевой гипотезы. В сценарии проверки гипотез вы не будете сравнивать различные друг с другом, а скорее будете использовать каждое из них для принятия отдельных решений относительно ваших гипотез. Вы действительно не хотите ничего знать о гипотезе корпуса, насколько вы знаете, можете ли вы отвергнуть ее или нет. Это делает их значения неотделимыми от контекста решения, и поэтому они отличаются от точечных оценок, потому что с точечными оценками нас интересуют их значения как таковые.p


5
Ваше первоначальное утверждение правильно повторяет, как вещи часто объясняются, но, тем не менее, оно недостаточно глубоко. Основным фактом здесь является изменение выборки, изменчивость от образца к образцу. Возьмите другой образец, и ваше P-значение будет другим. Требуется немного изобретательности, чтобы точно увидеть, что он оценивает, и не является (насколько я знаю) обычным объяснять это как оценку параметра, но эта точка зрения имеет смысл. Смотрите интересный ответ @ whuber. (Вся территория усеяна грязными парафразами, основанными на необходимости упрощения для обучения.)
Ник Кокс

1
Как используются термины, интересно и важно (и, между прочим, личная озабоченность). Остается открытым вопрос , что Р-значение является . Это также указано [неизбежный каламбур здесь] в другом месте в этой теме. Полезно считать параметры неизвестными, которые указаны в спецификации модели, но есть и другие неизвестные.
Ник Кокс

3
@ Тим, я думаю, что это утверждение (из вашего последнего комментария) почти всегда не соответствует действительности, по крайней мере, в биологии. Людей очень интересует значение р-значений, отмечая , , одной, двумя или тремя звездами на фигурах, писать о чем-то, что является «очень значимым» и т. Д. Обычное Рекомендуется также указывать точные значения р, например, , а не . Лишь в очень редких случаях люди придерживаются строгой структуры Неймана-Пирсона, заранее выбирают и сообщают обо всех значениях как . р < 0,01 р < 0,001 р = 0,003 р < 0,05 α р < αp<0.05p<0.01p<0.001p=0.003p<0.05αp<α
говорит амеба: восстанови монику

5
Этот вопрос пересекается со многими другими, большинство из которых весьма противоречивы. Одним из них является идеализация, что цель теста - принять решение «да» или «нет», что совсем не соответствует всем проблемам. Другим ключевым фактом является то, что в течение десятилетий использование пороговых уровней было связано с тем, что люди использовали опубликованные таблицы из печатных таблиц, а точные значения P были недоступны, в то время как люди не использовали компьютеры.
Ник Кокс

4
@ 00schneider: Если вы когда-нибудь увидите интервал, заданный для p-значений, очень маловероятно, что это будет доверительный интервал для параметра совокупности, определенного whuber. Суть Тима в том, что нет необходимости рассматривать их как что-то оценивающее , хотя это может быть интересно.
Scortchi - Восстановить Монику
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.