Вам нужен тест Макнемара ( http://en.wikipedia.org/wiki/McNemar%27s_test , http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3346204/ ). Ниже приведен пример:
Изучено 1300 баллов и 1300 подходящих контролей. Статус курения представлен следующим образом:
Normal
|no |yes|
Cancer|No |1000|40 |
|Yes |200 |60 |
Каждая запись в таблице показывает информацию о паре CASE-CONTROL: 1000 означает в 1000 пар случай-контроль, ни один из них не был курильщиком. 40 - количество пар случай-контроль, где контроль был курильщиком, а больной раком - нет, и так далее. Следующий код R может быть использован для генерации этой таблицы и выполнения теста Макнемара.
mat = as.table(rbind(c(1000, 40), c( 200, 60) ))
colnames(mat) <- rownames(mat) <- c("Nonsmoker", "Smoker")
names(dimnames(mat)) = c("Cancer", "Normal")
mat
# Normal
# Nonsmoker Smoker
# Cancer
# Nonsmoker 1000 40
# Smoker 200 60
mcnemar.test(mat)
# McNemar's Chi-squared test with continuity correction
#
#data: mat
#McNemar's chi-squared = 105.34, df = 1, p-value < 2.2e-16
Тест Макнемара также используется для оценки влияния вмешательства на двоичную переменную результата. Пара результатов до и после вносится в таблицу и тестируется, как указано выше.
Изменить: Расширение примера, данного @gung, если статус курения указан в вашем файле данных mydf следующим образом:
pairID cancer control
1 1 1
2 1 1
3 1 0
...
Тест МакНемарса можно выполнить с помощью следующих команд R:
> tt = with(mydf, table(cancer, control))
> tt
control
cancer 0 1
0 5 1
1 3 2
> mcnemar.test(tt)
McNemar`s Chi-squared test with continuity correction
data: tt
McNemar`s chi-squared = 0.25, df = 1, p-value = 0.6171