В этом посте была проблема с оригинальной симуляцией, которая, надеюсь, теперь исправлена.
В то время как оценка стандартного отклонения выборки имеет тенденцию расти вместе с числителем как среднее значение отклоняется от , это , оказывается , не все , что большое влияние на мощность на «типичные» уровнях значимости, потому что в среднем и крупные образцах, все еще имеет тенденцию быть достаточно большим, чтобы отклонить. В меньших выборках это может иметь некоторый эффект, и на очень малых уровнях значимости это может стать очень важным, потому что это установит верхнюю границу для мощности, которая будет меньше 1.s ∗ / √μ0s∗/n−−√
Вторая проблема, возможно, более важная для «общих» уровней значимости, заключается в том, что числитель и знаменатель тестовой статистики больше не являются независимыми при нулевом значении (квадрат коррелирует с оценкой дисперсии) ,x¯−μ
Это означает, что у теста больше нет t-распределения ниже нуля. Это не фатальный недостаток, но это означает, что вы не можете просто использовать таблицы и получить желаемый уровень значимости (как мы увидим через минуту). То есть тест становится консервативным, и это влияет на мощность.
По мере того как n становится большим, эта зависимость становится менее важной (не в последнюю очередь потому, что вы можете вызвать CLT для числителя и использовать теорему Слуцкого, чтобы сказать, что существует асимптотическое нормальное распределение для модифицированной статистики).
Вот кривая мощности для обычных двух выборок t (пурпурная кривая, тест с двумя хвостами) и для теста с использованием нулевого значения в расчете (синие точки, полученные с помощью моделирования и с использованием t-таблиц), как среднее значение популяции отходит от предполагаемого значения для : s n = 10μ0sn=10
n = 10
Вы можете видеть, что кривая мощности ниже (она становится намного хуже при меньших размерах выборки), но большая часть этого, кажется, происходит потому, что зависимость между числителем и знаменателем снизила уровень значимости. Если вы правильно отрегулируете критические значения, между ними будет мало даже при n = 10.
И вот снова кривая мощности, но теперь дляn=30
n = 30
Это говорит о том, что при немалых размерах выборок между ними не так уж и много, если вам не нужно использовать очень маленькие уровни значимости.