Да, между сравнениями доверительных интервалов и проверками гипотез существует ряд простых взаимосвязей в широком диапазоне практических условий. Однако в дополнение к проверке того, что процедуры CI и t-критерий подходят для наших данных, мы должны проверить, что размеры выборки не слишком различаются и что оба набора имеют одинаковые стандартные отклонения. Мы также не должны пытаться получить высокоточные значения р из сравнения двух доверительных интервалов, но должны быть рады разработать эффективные приближения.
Пытаясь согласовать два ответа, которые уже даны (@John и @Brett), это помогает быть математически явным. Формула для симметричного двустороннего доверительного интервала, подходящая для постановки этого вопроса:
CI=m±tα(n)sn−−√
где - среднее значение выборки из независимых наблюдений, - стандартное отклонение выборки, - желаемый размер теста (максимальная частота ложных срабатываний), а - верхний процентиль Распределение студента t с степенями свободы. (Это небольшое отклонение от общепринятых обозначений упрощает изложение, устраняя необходимость суетиться над различием против , что в любом случае будет несущественным.)mns2αtα(n)1−αn−1n n - 1 n−1
Используя индексы и , чтобы различать два независимых наборов данных для сравнения, с , соответствующей большему из двух средств, то не -overlap доверительных интервалов выражается неравенством (нижний предел доверительного 1) (верхнего доверительного предела 2); а именно ,121>>
м1- тα( н1) с1N1--√> м2+ тα( н2) с2N2--√,
Это можно сделать, чтобы выглядеть как t-статистика соответствующего теста гипотезы (для сравнения двух средних) с простыми алгебраическими манипуляциями, давая
м1- м2s21/ н1+ с22/ н2-----------√> с1N2--√Tα( н1) + s2N1--√Tα( н2)N1s22+ n2s21---------√,
Левая часть - статистика, используемая в проверке гипотезы; обычно его сравнивают с процентилем распределения Стьюдента t с степенями свободы: то есть с . Правая часть представляет собой смещенное средневзвешенное значение исходного процентиля распределения t.N1+ n2Tα( н1+ n2)
Анализ до сих пор оправдывает ответ @Brett: кажется, что нет простых отношений. Однако, давайте исследуем дальше. Я вдохновлен на это, потому что, интуитивно, неперекрытие доверительных интервалов должно что-то сказать!
Во-первых, обратите внимание, что эта форма проверки гипотезы действительна только тогда, когда мы ожидаем, что и будут по крайней мере приблизительно равны. (В противном случае мы сталкиваемся с пресловутой проблемой Беренса-Фишера и ее сложностями.) После проверки приблизительного равенства мы могли бы затем создать приближенное упрощение в видеs1s2с яsя
м1- м2с 1 / н1+ 1 / н2----------√> н2--√Tα( н1) + n1--√Tα( н2)N1+ n2------√,
Здесь . Реально, мы не должны ожидать, что это неформальное сравнение пределов доверия будет иметь такой же размер, как . Тогда мы задаемся вопросом: существует ли такой , что правая часть (по крайней мере приблизительно) равна правильной t-статистике. А именно, для чего это тот случай, когдаs ≈ s1≈ с2αα'α'
Tα'( н1+n2) = n2--√Tα(н1) +n1--√Tα( н2)N1+ n2------√?
Оказывается, что для одинаковых размеров выборки и связаны (с довольно высокой точностью) степенным законом. αα' Например, вот логарифмический график этих двух случаев (самая низкая синяя линия), (средняя красная линия), (самая высокая золотая линия). Средняя зеленая пунктирная линия является приближением, описанным ниже. Прямолинейность этих кривых противоречит степенному закону. Это меняется с , но не сильно.n1=n2=2n1=n2=5n1=n2=∞n=n1=n2
Ответ зависит от набора , но естественно задаться вопросом, насколько он действительно меняется в зависимости от размеров выборки. В частности, можно надеяться, что для средних и больших размеров выборки (может быть, или около того) размер выборки не имеет большого значения. В этом случае мы могли бы разработать количественный способ связать с .{n1,n2}n1≥10,n2≥10α′α
Этот подход работает, если размеры выборки не слишком отличаются друг от друга. В духе простоты я приведу сводную формулу для вычисления размера теста соответствующего размеру доверительного интервала . этоα′α
α′≈eα1.91;
то есть,
α′≈exp(1+1.91log(α)).
Эта формула работает достаточно хорошо в следующих распространенных ситуациях:
Оба размера выборки близки друг к другу, , и не слишком экстремальный ( или около того).n1≈n2αα>.001
Один размер выборки примерно в три раза больше другого, и наименьший не слишком мал (примерно, больше ), и снова не слишком экстремален.10α
Один размер выборки в три раза больше другого и или около того.α>.02
Относительная ошибка (правильное значение, деленное на аппроксимацию) в первой ситуации представлена здесь с нижней (синей) линией, показывающей случай , средней (красной) линией случай и верхняя (золотая) линия регистр . Интерполируя между двумя последними, мы видим, что аппроксимация превосходна для широкого диапазона практических значений когда размеры выборки умеренные (около 5-50) и в остальном достаточно хорошие.n1=n2=2n1=n2=5n1=n2=∞α
Этого более чем достаточно для того, чтобы взглянуть на кучу доверительных интервалов.
Подводя итоги, можно сказать, что неспособность двух доверительных интервалов средних значений перекрывать друг друга является существенным доказательством различия средних на уровне, равном , при условии, что эти две выборки имеют примерно равные стандартные отклонения и примерно одинакового размера.2α2eα1.91
Я закончу с таблицей аппроксимации для общих значений .2α
2α 2α′
0,1 0,02
0,05 0,005
0,01 0,0002
0,005 0,00006
Например, когда пара двусторонних 95% ДИ ( ) для образцов примерно одинакового размера не перекрывается, мы должны принять средства, чтобы значительно отличаться, . Правильное значение p (для одинаковых размеров выборки ) на самом деле лежит между ( ) и ( ).2α=.05p<.005n.0037n=2.0056n=∞
Этот результат оправдывает (и я надеюсь улучшить) ответ @John. Таким образом, хотя предыдущие ответы кажутся противоречивыми, оба они (по-своему) верны.