Сопряженный и непарный t-тест

20

Предположим, у меня есть 20 мышей. Я так или иначе соединяю мышей, чтобы получить 10 пар. Для целей этого вопроса это может быть случайное спаривание, ИЛИ это может быть разумное спаривание, например, попытка спарить мышей одного и того же помета, одного пола, с одинаковым весом, ИЛИ это может быть намеренно глупое спаривание, подобное пытаясь спарить мышей с весами, которые могут быть неравны. Затем я использую случайные числа, чтобы назначить одну мышь в каждой паре контрольной группе, а другую мышь - группе, подлежащей лечению. Сейчас я провожу эксперимент, рассматривая только мышей, которых нужно лечить, но в остальном не обращая внимания на только что сделанные приготовления.

Когда нужно проанализировать результаты, можно использовать либо непарное, либо парное t-тестирование. Каким образом, если таковые имеются, будут отличаться ответы? (В основном меня интересуют систематические различия любого статистического параметра, который необходимо оценить.)

Причина, по которой я спрашиваю это, состоит в том, что статья, с которой я недавно был связан, была подвергнута критике биологом за использование парного t-теста, а не непарного t-теста. Конечно, в реальном эксперименте ситуация была не такой экстремальной, как ситуация, которую я набросал, и, на мой взгляд, были веские причины для спаривания. Но биолог не согласился.

Мне кажется, что невозможно неправильно улучшить статистическую значимость (уменьшить значение p) в описанных мною обстоятельствах, используя парный t-тест, а не непарный тест, даже если это неуместно для пары. Однако это может ухудшить статистическую значимость, если мыши были плохо спарены. Это правильно?

t-test paired-data

— Дэвид Эпштейн
источник

23

Я согласен с тем, что высказывают и Фрэнк, и Питер, но я думаю, что есть простая формула, которая доходит до сути проблемы и может быть целесообразной для рассмотрения ФП.

Пусть и две случайные величины, корреляция которых неизвестна. $X$ $Y$

Пусть $Z=X-Y$

Какова дисперсия ? $Z$

Вот простая формула: Что если (т. Е. и имеют положительную корреляцию)?

Var (Z) знак равно Var (Икс) + Var (Y) - 2 Cov (Икс, Y),

$\text{Var}(Z)=\text{Var}(X) + \text{Var}(Y) - 2 \text{Cov}(X,Y).$ $\text{Cov}(X,Y)>0$ $X$ $Y$

Тогда $\text{Var}(Z)\lt \text{Var}(X)+\text{Var}(Y)$ , В этом случае, если спаривание выполнено из-за положительной корреляции, например, когда вы имеете дело с одним и тем же субъектом, до и после вмешательства спаривание помогает, потому что независимая парная разница имеет меньшую дисперсию, чем дисперсия, которую вы получаете для непарного случая. Метод уменьшил дисперсию. Тест более мощный. Это может быть ярко показано с помощью циклических данных. Я видел пример в книге, где они хотели узнать, выше ли температура в Вашингтоне, чем в Нью-Йорке. Таким образом, они взяли среднемесячную температуру в обоих городах, скажем, 2 года. Конечно, есть огромная разница в течение года из-за четырех сезонов. Эта вариация слишком велика для непарного t-теста, чтобы обнаружить разницу. Однако спаривание, основанное на том же месяце в том же году, устраняет этот сезонный эффект, и парные $t$ -test ясно показали , что средняя температура в Вашингтоне , как правило, выше , чем в Нью - Йорке. (температура в Нью-Йорке в месяце ) и (температура в DC в месяце ) имеют положительную корреляцию, потому что сезоны в Нью-Йорке и DC одинаковы, а города достаточно близки, чтобы часто сталкиваться с такими же погодными системами, которые влияют на температуру , DC может быть немного теплее, потому что это дальше на юг. $X_i$ $A$ $Y_i$ $A$

Обратите внимание, что чем больше ковариация или корреляция, тем больше уменьшение дисперсии.

Теперь предположим, что отрицателен. $\text{Cov}(X,Y)$

Тогда . Теперь спаривание будет хуже, чем не спаривание, потому что дисперсия на самом деле увеличивается! $\text{Var}(Z) \gt \text{Var}(X)+\text{Var}(Y)$

Когда и некоррелированы, то, вероятно, не имеет значения, какой метод вы используете. Случай случайного спаривания Питера похож на эту ситуацию. $X$ $Y$

— Майкл Р. Черник
источник

3

Майкл, потому что "<" и ">" имеют специальные значения на веб-страницах, чтобы избежать того, что большие полосы текста просто исчезают из вида, важно, чтобы вы использовали разметку для них в уравнениях (коды "\ lt" "и" \ gt "соответственно). Я разметил два уравнения, которые вызвали эту проблему для вас. В будущем, пожалуйста, прочитайте то, что вы публикуете, сразу после публикации, чтобы убедиться, что люди видят то, что, как вы думали, они увидят, а затем не стесняйтесь отмечать ваше сообщение для внимания модератора, если есть какие-то проблемы с разметкой.

T E X

$\TeX$

— whuber

@whuber Спасибо. Я обычно проверяю во время и после публикации, потому что я нахожу, что я часто путаю уравнения, особенно при подписке. Пропуск этого необычен и, вероятно, произошел потому, что это был длинный пост, и я просто небрежно перешел к чему-то еще, что я хотел или должен был сделать. Иногда телефонный звонок отвлекает меня, и я забываю проверить. Что касается специальных символов, которые приводят к исчезновению текста в посте, я заметил это. Я думаю, что простое решение - оставить пробел после символа. Я думаю, что это сработало для меня в прошлом.

— Майкл Р. Черник

+1, действительно на месте. Обратите внимание, что если и совершенно некоррелированы в вашем образце , .

X

$X$

Y

$Y$

Var (Z) = Var (X) + Var (Y)

$\text{Var}(Z)=\text{Var}(X)+\text{Var}(Y)$

— gung - Восстановить Монику

@MichaelChernick Для случая, когда Cov (X, Y) <0, у меня есть вопрос: если моя цель - вывести E [X] -E [Y] из моего эксперимента, то ДАЖЕ ЧЕРЕЗ Я провел парное исследование, когда я проанализировав мои данные, я все еще МОГУТ ПРИНЯТЬ, что результатом моего эксперимента является реализация НЕПЕРИРОВАННОГО рандомизированного эксперимента. Я могу это сделать? Потому что, если вы действительно провели непарный случайный эксперимент, вы можете буквально получить тот же результат. Затем я могу просто взять среднее значение для каждой группы (игнорировать спаривание) и взять разницу среднего значения для двух групп. Это объективная оценка E [Z]. Для дисперсии моей оценки, я просто использую ...

— KevinKim

@MichaelChernick Пример дисперсии группы X и группы Y и подвести их итоги

— KevinKim

7

Вместо спаривания, вероятно, лучше понять базовую модель данных. Если спаривание выполняется для борьбы с неконтролируемой неоднородностью, то обычно (за исключением исследований близнецов) спаривание лишь частично контролирует этот источник изменчивости, и множественная регрессия будет лучше. Это связано с тем, что сопоставление с непрерывными переменными часто приводит к остаточной изменчивости из-за невозможности точного сопоставления с такими переменными.

— Фрэнк Харрелл
источник

2

Если мы все должны заниматься регрессией, почему книги по экспериментальному дизайну, такие как книга Дэвида Кокса, подчеркивают важность спаривания или группировки в биологических экспериментах? Спаривание позволяет избежать скрытого предположения о линейной зависимости, связанной с регрессией. Но, возможно, есть и другие причины: кто-нибудь ??

— Дэвид Эпштейн

6

Два теста (парные и непарные) задают разные вопросы, чтобы они могли получить разные ответы. Правильное соединение почти всегда более мощное, чем непарное - в этом и заключается смысл соединения. Таким образом, поскольку вы говорите, что спаривание правильное, вполне вероятно, что значение p для вашего парного теста будет ниже, чем для тех же непарных данных. Конечно, вы могли бы сделать и то, и другое, и убедиться в этом сами.

Следовательно, ответ на вашу дилемму является существенным, а не статистическим. Правильно ли ваше соединение?

Можете ли вы получить более значимый результат от случайного спаривания, чем от непарного теста? Посмотрим:

set.seed(2910110192)
x <- rnorm(100, 10, 2)
y <- rnorm(100, 10, 2)
t.test(x, y)
t.test(x, y, paired = T)

Да, вы можете, хотя здесь разница очень мала, у пары было меньше р. Я запускал этот код несколько раз. Не удивительно, что иногда один p ниже, иногда другой, но во всех случаях разница была небольшой. Однако я уверен, что в некоторых ситуациях разница в значениях p может быть большой.

— Питер Флом - Восстановить Монику
источник

Спасибо за ответ, но мой вопрос задал систематические различия. Очевидно, что в долгосрочной перспективе х и у х и у иногда выглядят так, будто они очень хорошо спарены, а иногда - как будто они намеренно плохо спарены. Конечно, это статистический вопрос, является ли при случайном выборе x и y распределение значений p одинаковым в двух тестах. Я полагаю, что для того, кто знает больше теоретической статистики, чем для меня, не должно быть слишком сложно вычислить два теоретических распределения p-значений. Я думаю, что они одинаковы.

— Дэвид Эпштейн

В фактическом случае, в котором я участвовал, значение p для непарных составляло около .04, а для парных .001. По словам критического биолога, мы должны цитировать .04. По моему мнению, улучшение в значении р сильно указывает на то, что наше соединение было правильным. Я утверждаю, что здесь есть объективный вопрос в статистике, с объективным ответом, и что это не просто вопрос здравого биологического суждения относительно действительности конкретного соединения - последний, по-видимому, является мнением Питера Флома и критический биолог.

— Дэвид Эпштейн

1

Я думаю, что статистика рассказывает историю. Оба результата должны быть раскрыты, но пока данные верны и корреляция может быть объяснена, парный тест является более точным, поскольку он учитывает корреляцию.

— Майкл Р. Черник

5

Теперь я гораздо лучше понимаю, что меня беспокоило в парных и непарных t-тестах и связанных с ними p-значениях. Выяснение было интересным путешествием, и было много сюрпризов на этом пути. Один сюрприз стал результатом исследования вклада Майкла. Это безукоризненно с точки зрения практических советов. Более того, он говорит то, во что, я думаю, верят практически все статистики, и у него есть несколько аргументов в поддержку этого. Однако, как часть теории, это не совсем правильно. Я обнаружил это, разработав формулы для p-значений, а затем тщательно подумав, как использовать формулы, чтобы привести к контрпримерам. Я математик по образованию, а контрпример - это «контрпример» математика. Это не то, что вы встретите в практической статистике, То, о чем я пытался узнать, когда задавал свой оригинальный вопрос.

Вот R-код, который дает контрпример:

vLength <- 10; meanDiff <-10^9; numSamples <- 3;
pv <- function(vLength,meanDiff) {
    X <- rnorm(vLength)
    Y <- X - meanDiff + rnorm(vLength,sd=0.0001)
    Paired <- t.test(X,Y,var.equal=T,paired=T)
    NotPaired <- t.test(X,Y,var.equal=T,paired=F)
    c(Paired$p.value,NotPaired$p.value,cov(X,Y))
}
ans <- replicate(numSamples,pv(vLength,meanDiff))

Обратите внимание на следующие особенности: X и Y - два кортежа по 10, разница которых огромна и почти постоянна. Для многих значимых цифр корреляция составляет 1.000 .... Значение p для непарного теста примерно в 10-40 раз меньше значения p для парного теста. Так что это противоречит рассказу Майкла, при условии, что каждый читает его рассказ буквально в стиле математики. Здесь заканчивается часть моего ответа, связанная с ответом Майкла.

Вот мысли, подсказанные ответом Петра. Во время обсуждения моего первоначального вопроса я предположил в комментарии, что два конкретных распределения значений p, которые звучат по-разному, на самом деле одинаковы. Теперь я могу доказать это. Что более важно, так это то, что доказательство раскрывает фундаментальную природу p-значения, настолько фундаментального, что ни один текст (с которым я сталкивался) не удосуживается объяснить. Может быть, все профессиональные статистики знают секрет, но мне определение р-значения всегда казалось странным и искусственным. Прежде чем раскрыть секрет статистики, позвольте мне уточнить вопрос.

$n>1$ $n$ $2(n-1)$ $n-1$ степени свободы. Эти два распределения различны, так как же связанные с ними распределения значений p могут быть одинаковыми? Только после долгих размышлений я понял, что это очевидное отклонение моей гипотезы было слишком поверхностным.

$f:(0,\infty)\to (0,\infty)$ $[0,1]$

п знак равно \int_{T}^{\infty} е (s) d s

$p=\int_t^\infty f(s)\,ds$

f

$f$

(- \infty, \infty)

$(-\infty,\infty)$

[0, \infty)

$[0,\infty)$

$[0,1]$

$n-1$ $[0,1]$ $2(n-1)$ $[0,1]$ $[0,1]$

— Дэвид Эпштейн
источник

Я не думаю, что у р-значения есть какие-то таинственные последствия. Некоторые люди испытывают трудности с этим. Это вероятность наблюдения значения как экстремального или более экстремального, чем то, что фактически наблюдалось, когда нулевая гипотеза истинна. Я думаю, что вы имели это право в одной из ваших формул. Я думаю, что вы заявили, что p-значения распределены равномерно. Да, я согласен с этим, когда нулевая гипотеза верна. Имейте в виду, что с вашим t-тестом нулевая гипотеза может оказаться неверной. Тогда значение р не является равномерным. Это должно быть сосредоточено ближе к 0.

— Майкл Р. Черник

Во-вторых, речь идет о двух разных тестовых статистических данных. Один основан на сопряжении, а другой нет в вашем примере. Независимо от того, упоминал я об этом в своем ответе или нет, непарный t-тест имеет центральное t-распределение с 2n-2 степенями свободы, в то время как соответствующее t-распределение для парного t-теста имеет n-1 степеней свободы. Таким образом, один с большим количеством степеней свободы ближе к стандартному нормальному распределению, чем другой. Имеет ли это значение, когда вы применяете эти тесты к реальным данным? Нет! Не тогда, когда n достаточно велико.

— Майкл Р. Черник

В качестве дополнительного примечания ограничение парного теста требует равного размера выборки, который вы должны иметь, если все данные могут быть спарены. Но непарный тест действителен при неравных размерах выборки. Так что в общем случае непарный тест имеет n + m-2 степени свободы.

— Майкл Р. Черник

Ваш ответ длинный и абстрактный, и я пытался пробраться через него, но я не понял контрпример. Я просто не вижу, где вы принимаете во внимание нулевую гипотезу и реальные данные. Наблюдаемое значение p является интегралом соответствующего распределения t для статистики теста с учетом данных. Вы сравниваете эти числа для двух распределений t и одного и того же набора данных. Если вы обусловите наблюдаемые данные, то эти равномерные распределения не играют никакой роли. Извините, но я не вижу, чтобы ваш ответ действительно отвечал на ваш вопрос.

— Майкл Р. Черник

Майкл: просто сконцентрируйся на R-коде, который я дал. Это займет всего секунду, чтобы бежать. Нулевая гипотеза состоит в том, что X и Y происходят из одного и того же нормального распределения, что, конечно, в моем случае совершенно неверно. В моем примере Cov (X, Y)> 0, и тем не менее непарный тест дает большее значение, чем парный тест.

— Дэвид Эпштейн

1

Я бы предложил другую точку зрения. Часто спаривание делается для уменьшения смещения. Предположим, что вас интересует, является ли воздействие E фактором риска для непрерывного исхода Y. Для каждого субъекта E + вы получаете субъект по возрасту и полу, который является E-. Теперь мы можем провести либо парный t-тест, либо непарный t-тест. Я думаю, что мы должны четко учесть соответствие и провести парный t-тест. Это более принципиально, потому что он принимает во внимание дизайн. Вопрос о том, следует ли учитывать соответствие в анализе, является вопросом компромисса смещения. Учет соответствия в анализе обеспечивает большую защиту от смещения, но может увеличить дисперсию. Выполнение непарного t-теста может быть более эффективным, но оно не обеспечит никакой защиты от смещения.

— Рави Варадхан
источник