Два определения p-значения: как доказать их эквивалентность?


11

Я читаю книгу Ларри Вассермана « Вся статистика» и в настоящее время рассказываю о p-значениях (стр. 187). Позвольте мне сначала ввести некоторые определения (я цитирую):

Определение 1 Степенная функция теста с областью отклонения определяется как Размер теста определяется как тест имеет уровень \ alpha, если его размер меньше или равен \ alpha .R

β(θ)=Pθ(XR)
α=supθΘ0β(θ)
αα

Это в основном говорит о том, что α , размер является «самой большой» вероятностью ошибки типа I. Затем значение p определяется через (я цитирую)

Определение 2 Предположим, что для каждого α(0,1) у нас есть тест размера α с областью отклонения Rα . Затем

p-value=inf{α:T(Xn)Rα}
где Xn=(X1,,Xn) .

Для меня это означает: для заданного α есть область тестирования и отклонения Rα так что α=supθΘ0(α)Pθ(T(Xn)Rα) . Для p значения я просто беру наименьшее из всех этих α .

Вопрос 1 Если бы это было так, то я мог бы четко выбрать α=ϵ для сколь угодно малого ϵ . Какова моя неправильная интерпретация определения 2, то есть что именно оно означает?

Теперь Вассерман непрерывен и формулирует теорему, чтобы иметь «эквивалентное» определение p значения, с которым я знаком (я цитирую):

Теорема Предположим, что размер test имеет вид Тогда где - наблюдаемое значение .α

reject H0T(Xn)cα
p-value=supθΘ0Pθ(T(Xn)T(xn))
xnXn

Итак, вот мой второй вопрос:

Вопрос 2 Как я могу доказать эту теорему? Может быть, это из-за моего неправильного понимания определения значения, но я не могу понять это.p


4
Позитивно странно, что Вассерман определит мощность как " ", поскольку символ почти повсеместно используется для частоты ошибок типа II (то есть power = 1- для почти любого другого автора, обсуждающего мощность). Я затрудняюсь представить себе вариант обозначения, способного породить еще большее замешательство, кроме как намеренно излагать его. βββ
Glen_b

1
Я согласен, что это странно, Глен - однако Казелла и Бергер делают одно и то же, и их текст, на мой взгляд, является золотым стандартом статистической теории.
Мэтт Бремс

Ответы:


6

У нас есть несколько многомерных данных , взятых из дистрибутива с неизвестным параметром . Обратите внимание, что являются примерами результатов.xDθx

Мы хотим проверить некоторую гипотезу о неизвестном параметре , значения при нулевой гипотезе находятся в наборе .θθθ0

В пространстве мы можем определить область отклонения , и тогда мощность этой области определяется как . Таким образом, мощность вычисляется для конкретного значения из , как вероятность того, что образец исход находится в области режекции , когда значение есть . Очевидно, что мощность зависит от региона и от выбранного .XRRPθ¯R=Pθ¯(xR)θ¯θxR θθ¯Rθ¯

Определение 1 определяет размер областиR как супремум всех значений для в , поэтому только для значений под . Очевидно , что это зависит от региона, так .Pθ¯Rθ¯θ0θ¯H0αR=supθ¯θ0Pθ¯R

Поскольку зависит от у нас есть другое значение при изменении области, и это является основой для определения значения p: измените область, но таким образом, чтобы наблюдаемое значение выборки все еще принадлежало области, для каждая такая область, вычислить , как определено выше , и нижняя грань берется: . Таким образом, значение p является наименьшим размером из всех областей, которые содержат .αRRαRpv(x)=infR|xRαRx

Тогда эта теорема является просто «переводом» ее, а именно, в случае, когда области определяются с использованием статистики а для значения вы определяете область как . Если вы используете этот тип области в рассуждениях выше, то теорема следующая.RTcRR={x|T(x)c}R

РЕДАКТИРОВАТЬ из-за комментариев:

@ user8: для теоремы; если вы определяете области отклонения, как в теореме, то область отклонения размера - это набор, который выглядит как для некоторого .αRα={X|T(X)cα}cα

Чтобы найти значение p наблюдаемого значения , то есть вы должны найти наименьшую область , то есть наибольшее значение такое что прежнему содержит , последнее (область содержит ) эквивалентно (из-за способа определения областей) тому, что , поэтому вы должны найти самый большой такой, чтоxpv(x)Rc{X|T(X)c} xxcT(x)c{X|T(X)c&cT(x)}

Очевидно, что наибольшее такое, что должно быть и тогда множество supra становитсяccT(x)c=T(x){X|T(X)c=T(x)}={X|T(X)T(x)}


Большое спасибо за ваш ответ. На вопрос о проверке теоремы: нет ли какой-то пропущенной over ? infα
математика

@ user8: я добавил абзац в конце своего ответа, теперь вы видите точку с инфимумом?

7

В определении 2 значение тестовой статистики является наибольшей нижней границей всех , так что гипотеза отклоняется для теста размера . Напомним, что чем меньше мы делаем , тем меньше допускаем ошибку I типа, поэтому область отклонения также будет уменьшаться. Так что (очень) неформально говоря, значение - это наименьшее значение мы можем выбрать, которое все еще позволяет нам отклонять для данных, которые мы наблюдали. Мы не можем произвольно выбрать меньшую потому что в какой-то моментpαααRαpαH0αRα будет настолько малым, что исключит (т.е. не сможет содержать) событие, которое мы наблюдали.

Теперь, в свете вышесказанного, я приглашаю вас пересмотреть теорему.


Я все еще немного смущен. Итак, во-первых, в определении статистика фиксирована для всех ? Я не согласен с вашим утверждением: «... в какой-то момент будет настолько маленьким, что исключит (т.е. не сможет содержать) событие, которое мы наблюдали». Прекрасно, если настолько мала, что не содержит наблюдаемого образца, мы не отклоняем . В чем проблема с этим? спасибо за вашу помощь / терпение2TαRαRαH0
математика

Да. Тестовая статистика является предопределенной фиксированной функцией выборки, где «фиксированная» в этом смысле означает, что форма функции не изменяется ни для какой . Значение, которое он принимает, может (и должно) зависеть от образца. Ваше утверждение «мы не отвергаем » показывает, почему ваше несогласие неверно: по определению , включает в себя набор всех значений, для которых статистика теста приводит к отклонению нулевого значения . Вот почему он обозначен как - для выброса "R". Я опубликую обновление моего ответа, чтобы объяснить более подробно. TαH0RαR
heropup

Большое спасибо за ваш быстрый ответ и заранее за вашу обновленную версию. Я имел в виду следующее: мы отклоняем если , где - наблюдаемая выборка. Скажем, я очень экстремальный и выбираю очень маленьким, так что для данного образца что просто означает, что мы НЕ отклоняем . Так что маленькая не является априори плохой вещью. Ясно, что в какой-то момент он настолько мал, что очень и очень маловероятно, чтобы наблюдать образец, принадлежащий . Еще раз спасибо за ваше терпение / помощь. действительно ценится! H0T(xn)RαxnRαT(xn)RαH0RαRα
математика

2
Данное определение значения р явно требует, чтобы тестовая статистика для образца находилась в области отклонения . Вы не можете изменить эту часть определения p-значения.
Glen_b

@Glen_b Спасибо за комментарий. Действительно, мой предыдущий комментарий действительно нарушает определение. Спасибо за указание на это.
математика
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.