Как выполнить многократные тесты хи-квадрат после таблицы 2 на 3?


9

Мой набор данных состоит из общей смертности или выживания организма в трех типах участков: на берегу, в среднем и на расстоянии от берега. Цифры в таблице ниже представляют количество сайтов.

              100% Mortality            100% Survival
Inshore             30                       31 
Midchannel          10                       20 
Offshore             1                       10

Я хотел бы знать, является ли количество сайтов с 100% смертностью значительным в зависимости от типа сайта. Если я запускаю 2 х 3 хи-квадрат, я получаю значительный результат. Могу ли я провести параллельное попарное сравнение, или я действительно должен использовать логистическую ANOVA или регрессию с биномиальным распределением? Спасибо!

Ответы:


7

Таблица сопряженности должна содержать все взаимоисключающие категории по обеим осям. Inshore / Midchannel / Offshore выглядят хорошо, однако, если «смертность менее 100%» не означает «выживание 100%» в этой биологической обстановке, вам может потребоваться построить таблицы, которые учитывают все наблюдаемые случаи, или объяснить, почему вы ограничиваете свой анализ до крайности Концы образца.

Поскольку выживаемость 100% означает смертность 0%, вы можете иметь таблицу с колонками 100% = смертность / 100%> смертность> 0% / смертность = 0%. В этом случае вы больше не будете сравнивать проценты, но будете сравнивать порядковые показатели смертности по трем категориям типов сайтов. (А как насчет использования исходных процентных значений вместо категорий?) Здесь может быть уместна версия теста Крускала-Уоллиса, в которой должным образом учитываются связи (может быть, тест перестановки).

Для теста Крускала-Уоллиса установлены специальные тесты: 1 , 2, 3 . (Подход с повторной выборкой может помочь в решении проблем со связями.)

Логистическая регрессия и биномиальная регрессия могут быть даже лучше, поскольку они дают не только значения p, но также полезные оценки и доверительные интервалы величин эффекта. Однако для настройки этих моделей потребуется больше деталей, касающихся сайтов со 100%> смертностью> 0%.


4

Я собираюсь предположить, что «100% выживание» означает, что ваши сайты содержат только один организм. Итак, 30 означает, что 30 организмов умерли, а 31 означает, что 31 организм не умер. Исходя из этого, хи-квадрат должен быть в порядке, но он только скажет, какая гипотеза не поддерживается данными - он не скажет вам, являются ли две разумные гипотезы лучше или нет. Я представляю анализ вероятности, который действительно извлекает эту информацию - он согласуется с тестом хи-квадрат, но дает вам больше информации, чем тест хи-квадрат, и лучший способ представить результаты.

YijBin(1,θij)i2×3j

В основе критерия хи-квадрат лежат два глобальных предположения:

  1. θijθij=θik=θi
  2. YijθiYijθi

XiYijX1=30,X2=10,X3=1NiN1=61,N2=30,N3=11

HA:θ1=θ2,θ1=θ3,θ2=θ3

Но каковы альтернативы? Я бы сказал, другие возможные комбинации равны или не равны.

HB1:θ1θ2,θ1θ3,θ2=θ3
HB2:θ1θ2,θ1=θ3,θ2θ3
HB3:θ1=θ2,θ1θ3,θ2θ3
HC:θ1θ2,θ1θ3,θ2θ3

HAI0

P(X1,X2,X3|N1,N2,N3,HA,I0)=01P(X1,X2,X3,θ|N1,N2,N3,HA,I0)dθ
=(N1X1)(N2X2)(N3X3)01θX1+X2+X3(1θ)N1+N2+N3X1X2X3dθ
=(N1X1)(N2X2)(N3X3)(N1+N2+N3+1)(N1+N2+N3X1+X2+X3)

Что является гипергеометрическим распределением, деленным на константу. Аналогично для мы будем иметь: HB1

P(X1,X2,X3|N1,N2,N3,HB1,I0)=01P(X1,X2,X3,θ1θ2|N1,N2,N3,HB1,I0)dθ1dθ2
=(N2X2)(N3X3)(N1+1)(N2+N3+1)(N2+N3X2+X3)

Вы можете увидеть шаблон для других. Мы можем вычислить шансы, скажем, для , просто разделив два вышеупомянутых выражения. Ответ примерно , что означает, что данные поддерживают сравнению с примерно в раза - довольно слабое доказательство в пользу равных показателей. Другие вероятности приведены ниже.HAvsHB14HAHB14

Hypothesisprobability(HA|D)0.018982265(HB1|D)0.004790669(HB2|D)0.051620022(HB3|D)0.484155874(HC|D)0.440451171

Это демонстрирует убедительные доказательства против равных показателей, но не убедительные доказательства в пользу определенной альтернативы. Кажется, что есть убедительные доказательства того, что «оффшорный» тариф отличается от двух других, но неубедительные доказательства того, различаются ли «прибрежные» и «средние каналы». Это то, что тест хи-квадрат не скажет вам - он только скажет вам, что гипотеза является «дерьмом», но не то, какую альтернативу поставить на его место.A


1

Вот код для выполнения тестов хи-квадрат, а также для генерации различных тестовых статистических данных. Однако статистические тесты связи полей таблицы здесь бесполезны; ответ очевиден. Никто не проводит статистический тест, чтобы увидеть, жарче ли лето, чем зима.

Chompy<-matrix(c(30,10,1,31,20,10), 3, 2)
Chompy
chisq.test(Chompy)
chisq.test(Chompy, simulate.p.value = TRUE, B = 10000)
chompy2<-data.frame(matrix(c(30,10,1,31,20,10,1,2,1,2,1,2,1,2,3,1,2,3), 6,3))
chompy2
chompy2$X2<-factor(chompy2$X2) 
chompy2$X3<-factor(chompy2$X3)
summary(fit1<-glm(X1~X2+X3, data=chompy2, family=poisson))
summary(fit2<-glm(X1~X2*X3, data=chompy2, family=poisson)) #oversaturated
summary(fit3<-glm(X1~1, data=chompy2, family=poisson)) #null
anova(fit3,fit1)
library(lmtest)
waldtest(fit1)
waldtest(fit2) #oversaturated
kruskal.test(X1~X2+X3, data=chompy2)
kruskal.test(X1~X2*X3, data=chompy2)

3
Читателю (и ОП) было бы интересно, если бы вы могли предоставить подробную информацию о различном синтаксисе R (и базовых тестах), который вы дали, и особенно о том, как тест Крускала-Уоллиса действительно сравнивается с лог-линейной моделью.
CHL

Вы можете увидеть это, скопировав и вставив код в консоль R.
Патрик Макканн

1
Конечно. Ответы приходят сами по себе, конечно, путем запуска кода.
ЧЛ

0

Я полагаю, что вы можете использовать «одновременные доверительные интервалы» для проведения нескольких сравнений. Ссылка Agresti et al. 2008 г. Одновременные доверительные интервалы для сравнения биномиальных параметров. Биометрия 64 1270-1275.

Вы можете найти соответствующий код R в http://www.stat.ufl.edu/~aa/cda/software.html.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.