Насколько меньшими могут быть значения

Вступление: отметив внимание, которое получил сегодня этот вопрос: « Может ли ANOVA быть значимым, если ни один из парных t-тестов не является? », Я подумал, что смогу перефразировать его интересным способом, который заслуживает своего собственного набора ответов. ,

Различные несоответствующие результаты (по номинальной стоимости) могут иметь место, когда статистическая значимость понимается как простая дихотомия и оценивается только на основе того, что выше, $p$ или $\alpha$ . Ответ @ Glen_b на вышеуказанный вопрос представляет собой полезный пример случая, когда:

$F$ тест ANOVA дает $p_F<.05$ для одной независимой переменной (IV) с четырьмя уровнями, но
$p_t>.08$ для всех $t$ тестов сдвумявыборками, которые сравнивают различия в одной и той же зависимой переменной (DV) среди наблюдений, соответствующих каждой паре четырех уровней IV.

Похожий случай возник, несмотря на поправки Бонферрони для специальных парных сравнений с помощью этого вопроса: повторные измерения Ановы значимы, но все множественные сравнения с поправкой Бонферрони не являются? Ранее упоминавшиеся случаи с несколько иным тестом множественной регрессии также существуют:

Почему можно получить значительную статистику F (p <.001), но не значимые t-тесты регрессора? : $p_F<.001,p_{\beta t}>.09$
Как регрессия может быть значимой, но все предикторы могут быть несущественными?
- В @ whuber - х ответ , $p_F=.0003,p_{\beta t}>.09$

Держу пари , что в подобных случаях, некоторые (но не все) попарные сравнения (или коэффициентов регрессии критерии значимости) $p$ значения должны быть достаточно близки к $\alpha$ , если соответствующий Омнибус тест может достичь $p <\alpha$ . Я вижу, что это имеет место в первом примере @ Glen_b, где $F_{(3,20)}=3.19$ , $p_F=.046$ , а наибольшая разница дает наименьшее $p_t=.054$ . Должно ли это быть в общем случае? Более конкретно :

Вопрос: Если ANOVA $F$ тест производит $p_F=.05$ для одного политомного эффекта IV на непрерывном DV, как высоко может быть самое низкое значение $p$ среди всех $t$ тестов двух выборок, которые сравнивают каждую пару уровней IV? Может ли минимальное попарное значение быть таким высоким, как $p_t=.50$ ?

_{Я приветствую ответы, которые касаются только этого конкретного вопроса . Однако, чтобы еще больше мотивировать этот вопрос, я разработаю и добавлю некоторые потенциально риторические вопросы. Не стесняйтесь решать и эти проблемы, и даже игнорировать конкретный вопрос, если хотите, особенно если на конкретный вопрос получен окончательный ответ.}

Значимость: подумайте, насколько менее важной будет разница между a и a , если бы статистическая значимость оценивалась непрерывно с точки зрения силы доказательств против нулевой гипотезы (я думаю, что подход Рона Фишера? ), а не в дихотомических терминах, как выше или ниже порогового значения для приемлемой вероятности ошибки при выборе, следует ли отклонять нулевую оптовую продажу. « хакинг » - известная проблема, которая отчасти обязана своей известностью излишней уязвимости, представленной интерпретацией $p_F=.04$ $p_t=.06$ $\alpha=.05$ $p$ $p$ значения в соответствии с обычной практикой дихотомизации значимости в эквивалентах «достаточно хорошо» и «недостаточно хорошо». Если бы кто-то выбрал эту практику и сосредоточился вместо этого на интерпретации значений как силы доказательств против нуля на непрерывном интервале, может ли комплексное тестирование быть несколько менее важным, если действительно заботятся о множественных парных сравнениях? Не обязательно бесполезно, поскольку любое разумно эффективное улучшение статистической точности, конечно, желательно, но ... если, например, наименьшее значение парного сравнения обязательно находится в пределах от ANOVA (или другого сводного теста) $p$ $p$ $.10$ $p$ значение, разве это не делает омнибусный тест несколько более тривиальным, менее обязательным и даже более вводящим в заблуждение (в сочетании с существовавшим ранее недоразумением), особенно если не требуется особо контролировать в нескольких тестах? $\alpha$

И наоборот, если данные могут существовать таким образом, что омнибус , но все попарно , разве это не должно мотивировать омнибус и контрастное тестирование на протяжении всей практики и педагогики? Мне кажется, что эта проблема должна также проинформировать об относительных достоинствах оценки статистической значимости в соответствии с дихотомией по сравнению с континуумом, поскольку дихотомическая интерпретирующая система должна быть более чувствительной к небольшим корректировкам, когда различия «незначительно значимы», тогда как ни одна из этих систем является безопасным с невыполнения теста омнибуса или настроить для множественных сравнений , если эта разница / регулировка может быть очень большой (например, $p=.05$ $p>.50$ в теории. $p_t-p_F>.40)$

_{Другие дополнительные сложности, которые следует учитывать или игнорировать - все, что делает ответ более простым и более полезным :}

^{Как высоко S для s может быть , если, , вместо (например, ) $p$ $t$ $F$ $p<.05$ $p=.01, .001,\dots$}
^{Чувствительность к числу уровней в политоме IV}
^{Чувствительность к неравномерности в значении парных различий (при всех ) $p_t>p_F$}
- ^{Ответ Уубера указывает на то, что включение небольших различий может маскировать большие различия.}
^{Различия между исправлениями различных омнибус-тестов для множественных сравнений}
- ^{Смотрите также: Исправление для множественных сравнений в пределах предметов / повторных измерений ANOVA; чрезмерно консервативный?}
- ^{С многократными IV, кажется, мультиколлинеарность может усугубить эту проблему .}
^{Ограниченные случаи, когда данные оптимально соответствуют всем предположениям классических параметрических тестов}
- ^{Это ограничение может быть важно, чтобы этот вопрос не был спорным.}

— Ник Стаунер
источник

Возможно, вы захотите уточнить, должны ли парные t-тесты использовать ту же оценку дисперсии ошибок, что и универсальный F-тест (в примере Глена они этого не делают).

— Scortchi - Восстановить Монику

Я имел в виду обычную Т-тест для разности средних значений с использованием

, но с

рассчитывается как квадратный корень из среднего квадрата ошибки ANOVAR. Это обычный пост-hoc парный t-тест,который неучитывает множественные сравнения, в отличие от HSD Тьюки. Он включает в себя информацию из всех групп, но не зависит от различий в групповых средствах.

t = ({\bar{y}}_{1} - {\bar{y}}_{2}) / (\hat{σ} \sqrt{\frac{1}{n_{1}} + \frac{1}{n_{2}}})

$t=(\bar{y}_1-\bar{y}_2)/\left({\hat\sigma\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\right)$

\hat{σ}

$\hat\sigma$

— Scortchi - Восстановить Монику

Я вижу (вроде)! В первую очередь, мне было бы интересно следовать примеру @ Glen_b и не использовать

, но используя первую формулу, которую вы упомянули, чтобы избежать включения информации из всех групп. Это не значит, что у меня есть сильное предпочтение здесь ... но часть моего первоначального намерения состояла в том, чтобы представить вариант общей темы в этих вопросах: «Какой реальный вред в игнорировании информации за пределами двух конкретных групп для любой данной тест из двух образцов среди многих? Я полагаю, что в этом решении стоит заняться темой.

\sqrt{MSE}

$\sqrt{\text{MSE}}$

— Ник Стаунер

@Scortchi Я включил пример в другой вопрос, который охватывает ваш первый комментарий (т. Е. Где тесты выполняются с использованием общей дисперсии ошибок и df), хотя все тесты (F и множественные сравнения) проводятся с довольно низким уровнем значимости (0,0025, а не 0,05). По сравнению с индивидуальными обычными t-тестами из двух выборок, которые здесь задает Ник С., это показывает, что возможна довольно существенная разница в значимости (в этом случае

для всех обычных t-тестов все же

). Я верю, что со многими группами можно пойти гораздо дальше.

p_{t} > .05

$p_t>.05$

p_{F} < 0.002

$p_F<0.002$

— Glen_b

Я набросал ответ на первую часть этого вопроса несколько минут назад в комментарии на stats.stackexchange.com/questions/83030/… .

— whuber

Предполагая равные s [но см. Примечание 2 ниже] для каждой обработки в одностороннем формате, и что объединенная SD из всех групп используется в тестах (как это делается в обычных сравнительных оценках), максимально возможный Значение для теста составляет $n$ $t$ $p$ $t$ (здесьобозначаетcdf). Таким образом, нине может быть столь же высокимкак. Интересно (и довольно причудливо), тосвязаны справедливо не только для, нодля любого уровня значимости мы требуем для. $2\Phi(-\sqrt{2}) \approx .1573$ $\Phi$ $N(0,1)$ $p_t$ $0.5$ $.1573$ $p_F=.05$ $F$

Обоснование таково: для данного диапазона выборочных средних , наибольшая возможный статистика достигается , когда половина нахожусь на одном полюсе , а другая половине находятся на другом. Это представляет случай, когда выглядит наиболее значимым, учитывая, что два средних отличаются не более чем на . $\max_{i,j}|\bar y_i - \bar y_j| = 2a$ $F$ $\bar y_i$ $F$ $2a$

Итак, без ограничения общности, предположим, что так что в этом граничном случае. И снова, без потери общности, предположим, что , так как мы всегда можем масштабировать данные до этого значения. Теперь рассмотрим означает (где даже для простоты [но см. Примечание 1 ниже]), мы имеем $\bar y_.=0$ $\bar y_i=\pm a$ $MS_E=1$ $k$ $k$ . Полагаятак, что, получаем $F=\frac{\sum n\bar y^2/(k-1)}{MS_E}= \frac{kna^2}{k-1}$ $p_F=\alpha$ $F=F_\alpha=F_{\alpha,k-1,k(n-1)}$ . Когда всеравны(и все еще), каждая ненулеваястатистика, таким образом, равна $a =\sqrt{\frac{(k-1)F_\alpha}{kn}}$ $\bar y_i$ $\pm a$ $MS_E=1$ $t$ $t=\frac{2a}{1\sqrt{2/n}} = \sqrt{\frac{2(k-1)F_\alpha}{k}}$ . This is the smallest maximum $t$ value possible when $F=F_\alpha$ .

Таким образом, вы можете просто попробовать разные случаи и , вычислить и связанный ним . Но обратите внимание , что при заданном , убывает в [но смотри примечание 3 ниже]; кроме того, как , ; так $k$ $n$ $t$ $p_t$ $k$ $F_\alpha$ $n$ $n\rightarrow\infty$ $(k-1)F_{\alpha,k-1,k(n-1)} \rightarrow \chi^2_{\alpha,k-1}$ $t \ge t_{min} =\sqrt{2\chi^2_{\alpha,k-1}/k}$ . Note that $\chi^2/k=\frac{k-1}k \chi^2/(k-1)$ has mean $\frac{k-1}k$ and SD $\frac{k-1}k\cdot\sqrt{\frac2{k-1}}$ . So $\lim_{k\rightarrow\infty}t_{min} = \sqrt{2}$ , regardless of $\alpha$ , and the result I stated in the first paragraph above is obtained from asymptotic normality.

It takes a long time to reach that limit, though. Here are the results (computed using R) for various values of $k$ , using $\alpha=.05$ :

k       t_min    max p_t   [ Really I mean min(max|t|) and max(min p_t)) ]
2       1.960     .0500
4       1.977     .0481   <--  note < .05 !
10      1.840     .0658
100     1.570     .1164
1000    1.465     .1428
10000   1.431     .1526

A few loose ends...

When k is odd: The maximum $F$ statistic still occurs when the $\bar y_i$ are all $\pm a$ ; however, we will have one more at one end of the range than the other, making the mean $\pm a/k$ , and you can show that the factor $k$ in the $F$ statistic is replaced by $k-\frac 1k$ . This also replaces the denominator of $t$ , making it slightly larger and hence decreasing $p_t$ .
Unequal $n$ s: The maximum $F$ is still achieved with the $\bar y_i = \pm a$ , with the signs arranged to balance the sample sizes as nearly equally as possible. Then the $F$ statistic for the same total sample size $N = \sum n_i$ will be the same or smaller than it is for balanced data. Moreover, the maximum $t$ statistic will be larger because it will be the one with the largest $n_i$ . So we can't obtain larger $p_t$ values by looking at unbalanced cases.
A slight correction: I was so focused on trying to find the minimum $t$ that I overlooked the fact that we are trying to maximize $p_t$ , and it is less obvious that a larger $t$ with fewer df won't be less significant than a smaller one with more df. However, I verified that this is the case by computing the values for $n=2,3,4,\ldots$ until the df are high enough to make little difference. For the case $\alpha=.05, k\ge 3$ I did not see any cases where the $p_t$ values did not increase with $n$ . Note that the $df=k(n-1)$ so the possible df are $k,2k,3k,\ldots$ which get large fast when $k$ is large. So I'm still on safe ground with the claim above. I also tested $\alpha=.25$ , and the only case I observed where the $.1573$ threshold was exceeded was $k=3,n=2$ .

— Russ Lenth
источник