Подходящий способ справиться с 3-уровневой таблицей непредвиденных обстоятельств


12

У меня есть трехуровневая таблица непредвиденных обстоятельств с данными подсчета для нескольких видов, растения-хозяина, из которого они были собраны, и была ли эта коллекция в дождливый день (это действительно имеет значение!) Используя R, поддельные данные могут выглядеть примерно так:

count    <- rpois(8, 10)
species  <- rep(c("a", "b"), 4)
host     <- rep(c("c","c", "d", "d"), 2)
rain     <- c(rep(0,4), rep(1,4))
my.table <- xtabs(count ~ host + species + rain)


, , rain = 0

    species
host  a  b
   c 12 15
   d 10 13

, , rain = 1

    species
host  a  b
   c 11 12
   d 12  7

Теперь я хочу знать две вещи: связаны ли виды с растениями-хозяевами? "Дождь или нет" влияет на эту ассоциацию? Я loglm()из MASSза этого:

 # Are species independent to host plants, given the effect of rain?
loglm(~species + host + rain + species*rain + host*rain, data=my.table)

 # Given any relationship between host plants and species, does rain change it?
loglm(~species + host + rain + species*host)

Это немного выше моего уровня комфорта, и я хотел проверить, правильно ли я настроил модели и что это был лучший способ подойти к этим вопросам.

Ответы:


10

Существует два способа интерпретации вашего первого вопроса, которые отражены в двух ваших ответах: «Связаны ли виды с растениями-хозяевами?» и «Являются ли виды независимыми от растений-хозяев, учитывая влияние дождя?»

Первая интерпретация соответствует модели совместной независимости , которая гласит, что виды и хозяева зависимы, но совместно независимы от того, шел ли дождь:

pshr=pshpr

где - это вероятность того, что наблюдение попадает в ячейку где индексирует виды, тип хозяина и значение rain, - предельная вероятность ячейка, где мы разрушаемся по переменной дождя, а - предельная вероятность дождя.pshr(s,h,r)shrpsh(s,h,)pr

Вторая интерпретация соответствует модели условной независимости , которая гласит, что виды и хозяева независимы, учитывая, шел ли дождь:

psh|r=ps|rph|r илиpshr=psrphr/pr

где - условная вероятность ячейки заданном значении . ( s , h , r ) rpsh|r(s,h,r)r

Вы можете протестировать эти модели в R ( loglinтоже будет хорошо работать, но я более знаком с glm):

count <- c(12,15,10,13,11,12,12,7)
species <- rep(c("a", "b"), 4)
host <- rep(c("c","c", "d", "d"), 2)
rain <- c(rep(0,4), rep(1,4))
my.table <- xtabs(count ~ host + species + rain)
my.data <- as.data.frame.table(my.table)
mod0 <- glm(Freq ~ species + host + rain, data=my.data, family=poisson())
mod1 <- glm(Freq ~ species * host + rain, data=my.data, family=poisson())
mod2 <- glm(Freq ~ (species + host) * rain, data=my.data, family=poisson())
anova(mod0, mod1, test="Chi") #Test of joint independence
anova(mod0, mod2, test="Chi") #Test of conditional independence

Выше, mod1соответствует совместной независимости и mod2соответствует условной независимости, в то время как mod0соответствует модели взаимной независимости . Вы можете увидеть оценки параметров, используя и т. Д. Как обычно, вы должны проверить, соответствуют ли предположения модели. В предоставленных вами данных нулевая модель в действительности соответствует.pshr=psphprsummary(mod2)

Другой способ решения первого вопроса - выполнить точный тест Фишера fisher.test(xtabs(count ~ host + species))( mantelhaen.test(xtabs(count ~ host + species + rain))) для свернутой таблицы 2x2 (первая интерпретация) или тест Мантеля-Хензеля ( ) для двухслойных таблиц 2x2 или написать тест перестановки, учитывающий стратификацию. (вторая интерпретация).

Перефразируя ваш второй вопрос, зависят ли отношения между видами и хозяином от того, шел ли дождь?

mod3 <- glm(Freq ~ species*host*rain - species:host:rain, data=my.data, family=poisson())
mod4 <- glm(Freq ~ species*host*rain, data=my.data, family=poisson())
anova(mod3, mod4, test=”Chi”)
pchisq(deviance(mod3), df.residual(mod3), lower=F)

Полная модель mod4насыщена, но вы можете проверить рассматриваемый эффект, взглянув на отклонение от того, mod3что я делал выше.


Спасибо Lockedoff, особенно за то, что помог мне разобраться в своем собственном мышлении относительно разницы между моделью условной и совместной независимости
Дэвид

1

Логистическая регрессия кажется подходящей для вашей проблемы. Переменная, которую вы пытаетесь предсказать, - это вероятность того, что наблюдение (которое относится либо к виду A, либо к виду B) относится к виду A. Ковариатами являются , и, необязательно, .р я п ч о с т * г а я пhostrainhostrain

Команда R будет:

glm (формула = вид ~ хозяин + дождь, семейство = биномиальное (логит), вес = количество)

и вы будете заинтересованы в значениях склонов. Имейте в виду, что вы проверяете несколько гипотез, хотя.p


1
Логистическая регрессия выглядит нормально, но она имеет дополнительное ограничение на общее количество строк и столбцов. Это может быть не так с данными Пуассона. Я считаю, что ответы не будут сильно отличаться.
Suncoolsu

1

Первоначально я предложил попробовать один из методов ограниченного ординации из veganпакета, но, подумав еще раз, я сомневаюсь, что это было бы полезно, поскольку у вас на самом деле есть две таблицы сопряженности. Я надеюсь, что вторая часть этого примера [PDF: R Демонстрация - Категориальный анализ] будет полезна.


Думаю, что ссылка не работает, вы имели в виду этот категорический здесь ? Это было полезно, спасибо!
Дэвид ш

Да, кажется, что пробел в URL разбивает его.
ils
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.